Webwright是微软研究院开源的终端原生网页智能体框架,整体代码量仅约1000行。它支持AI模型在终端内编写Playwright脚本、运行bash命令、查看日志并自主迭代纠错,高效完成各类复杂网页任务,实现以代码驱动浏览器自动化操作。
该框架实测性能表现突出:搭载GPT-5.4时,在Odysseys长链路浏览基准中得分60.8%,较历史最优值提升35.1%,相较原生GPT-5.4提升81.49%;在Online-Mind2Web 300项真实网站任务里,准确率达到86.67%。

1、项目官网入口:https://microsoft.github.io/Webwright/
2、GitHub仓库:https://github.com/microsoft/webwright
1、轻量化三模块架构:
整体由三大模块构成,架构精简无复杂分层与多智能体编排:Runner(约150行,负责任务循环调度)、Model Endpoint(约550行,封装大模型API调用)、Environment(约300行,执行Shell指令、完成终端交互)。
2、代码即动作执行范式:
将表单填写、跨页操作等网页任务转化为代码逻辑,依托代码的循环、函数复用能力,效率远高于传统单步动作执行模式。
3、观察-行动闭环循环:
Runner汇总任务历史与终端信息下发至大模型,模型输出思考逻辑与Shell指令;环境执行指令并回传日志、截图、报错等数据,循环运行直至任务收尾。
4、本地工作区持久化:
脚本、日志、截图、运行结果全部本地存储,任务完成后可留存完整可复用程序。
1、代码驱动浏览器操控:
AI直接编写Playwright脚本,自主启停、管理浏览器会话,摆脱逐一点击、输入的传统模式。
2、Shell命令全量支持:
兼容bash命令执行,结合代码与系统操作,灵活处理文件、日志及运行环境配置。
3、自检反思机制:
任务结束后,模型会在全新目录重跑脚本,结合日志与截图核验结果,规避提前终止任务的问题。
4、上下文智能压缩:
每执行20步自动精简历史轨迹,有效解决长链路任务的上下文冗余问题。
5、任务工具封装复用:
将完成的脚本参数化为CLI工具并保存,同类任务可直接调用,减少重复开发。
1、环境部署:克隆代码仓库,安装依赖并配置大模型API密钥。
2、发起任务:运行`run.py`,以自然语言描述网页操作需求。
3、自动执行:框架启动闭环循环,模型编写脚本、执行指令并捕获运行数据。
4、结果核验:任务完成后,在`final_runs/`目录重跑脚本,通过自检逻辑验证执行效果。
5、资源复用:从`workspace/`目录提取生成的Python脚本,作为独立CLI工具重复使用。
1、极简易拓展:
核心代码仅约1000行,架构直观,上手与二次开发门槛低。
2、性能领先:
在长链路网页任务中性能大幅超越同类方案,主流大模型接入后均有明显效果提升。
3、终端原生能力:
赋予AI完整终端操作权限,浏览器会话灵活管控,数据与日志永久留存。
4、产出可复用:
任务成果可封装为独立工具,持续降低同类自动化任务的执行成本。
1、网页数据采集:
自动编写爬虫脚本,批量完成数据抓取、表单填报、跨页信息整合,生成长效采集工具。
2、网页自动化测试:
自主生成并执行测试代码,留存截图与日志,自检验证功能状态,输出测试结果。
3、复杂长流程任务:
适配机票比价、酒店预订等多步骤网页操作,依靠代码逻辑简化流程、提升效率。
4、定制工具开发:
把高频网页操作封装为CLI工具,搭建专属自动化工具库,实现一键调用。
标签:
影视下载AI办公效率办公软件AI辅助工具办公提效OCR识别生活服务音频工具下载中心PDF分析在线学习平台平台培训二手交易SQL语句在线短剧