Webwright – 微软研究院开源的终端原生网页智能体框架

AI工具

Webwright是微软研究院开源的终端原生网页智能体框架，整体代码量仅约1000行。它支持AI模型在终端内编写Playwright脚本、运行bash命令、查看日志并自主迭代纠错，高效完成各类复杂网页任务，实现以代码驱动浏览器自动化操作。

该框架实测性能表现突出：搭载GPT-5.4时，在Odysseys长链路浏览基准中得分60.8%，较历史最优值提升35.1%，相较原生GPT-5.4提升81.49%；在Online-Mind2Web 300项真实网站任务里，准确率达到86.67%。

Webwright项目地址：

1、项目官网入口：https://microsoft.github.io/Webwright/

2、GitHub 仓库：https://github.com/microsoft/webwright

Webwright技术原理：

1、轻量化三模块架构：

整体由三大模块构成，架构精简无复杂分层与多智能体编排：Runner（约150行，负责任务循环调度）、Model Endpoint（约550行，封装大模型API调用）、Environment（约300行，执行Shell指令、完成终端交互）。

2、代码即动作执行范式：

将表单填写、跨页操作等网页任务转化为代码逻辑，依托代码的循环、函数复用能力，效率远高于传统单步动作执行模式。

3、观察-行动闭环循环：

Runner汇总任务历史与终端信息下发至大模型，模型输出思考逻辑与Shell指令；环境执行指令并回传日志、截图、报错等数据，循环运行直至任务收尾。

4、本地工作区持久化：

脚本、日志、截图、运行结果全部本地存储，任务完成后可留存完整可复用程序。

Webwright核心功能：

1、代码驱动浏览器操控：

AI直接编写Playwright脚本，自主启停、管理浏览器会话，摆脱逐一点击、输入的传统模式。

2、Shell命令全量支持：

兼容bash命令执行，结合代码与系统操作，灵活处理文件、日志及运行环境配置。

3、自检反思机制：

任务结束后，模型会在全新目录重跑脚本，结合日志与截图核验结果，规避提前终止任务的问题。

4、上下文智能压缩：

每执行20步自动精简历史轨迹，有效解决长链路任务的上下文冗余问题。

5、任务工具封装复用：

将完成的脚本参数化为CLI工具并保存，同类任务可直接调用，减少重复开发。

Webwright使用流程：

1、环境部署：克隆代码仓库，安装依赖并配置大模型API密钥。

2、发起任务：运行`run.py`，以自然语言描述网页操作需求。

3、自动执行：框架启动闭环循环，模型编写脚本、执行指令并捕获运行数据。

4、结果核验：任务完成后，在`final_runs/`目录重跑脚本，通过自检逻辑验证执行效果。

5、资源复用：从`workspace/`目录提取生成的Python脚本，作为独立CLI工具重复使用。

Webwright核心优势：

1、极简易拓展：

核心代码仅约1000行，架构直观，上手与二次开发门槛低。

2、性能领先：

在长链路网页任务中性能大幅超越同类方案，主流大模型接入后均有明显效果提升。

3、终端原生能力：

赋予AI完整终端操作权限，浏览器会话灵活管控，数据与日志永久留存。

4、产出可复用：

任务成果可封装为独立工具，持续降低同类自动化任务的执行成本。

Webwright应用场景：

1、网页数据采集：

自动编写爬虫脚本，批量完成数据抓取、表单填报、跨页信息整合，生成长效采集工具。

2、网页自动化测试：

自主生成并执行测试代码，留存截图与日志，自检验证功能状态，输出测试结果。

3、复杂长流程任务：

适配机票比价、酒店预订等多步骤网页操作，依靠代码逻辑简化流程、提升效率。

4、定制工具开发：

把高频网页操作封装为CLI工具，搭建专属自动化工具库，实现一键调用。

标签：

Webwright – 微软研究院开源的终端原生网页智能体框架

Webwright项目地址：

Webwright技术原理：

Webwright核心功能：

Webwright使用流程：

Webwright核心优势：

Webwright应用场景：

即梦AI网页版

热门工具

热门标签