AI工作站

Webwright – 微软研究院开源的终端原生网页智能体框架

AI工具 2026-06-01 07:51:35 

Webwright微软研究院开源的终端原生网页智能体框架,整体代码量仅约1000行。它支持AI模型在终端内编写Playwright脚本、运行bash命令、查看日志并自主迭代纠错,高效完成各类复杂网页任务,实现以代码驱动浏览器自动化操作。

该框架实测性能表现突出:搭载GPT-5.4时,在Odysseys长链路浏览基准中得分60.8%,较历史最优值提升35.1%,相较原生GPT-5.4提升81.49%;在Online-Mind2Web 300项真实网站任务里,准确率达到86.67%。

Webwright – 微软研究院开源的终端原生网页智能体框架

Webwright项目地址:

1、项目官网入口:https://microsoft.github.io/Webwright/

2、GitHub仓库:https://github.com/microsoft/webwright

Webwright技术原理:

1、轻量化三模块架构

整体由三大模块构成,架构精简无复杂分层与多智能体编排:Runner(约150行,负责任务循环调度)、Model Endpoint(约550行,封装大模型API调用)、Environment(约300行,执行Shell指令、完成终端交互)。

2、代码即动作执行范式

将表单填写、跨页操作等网页任务转化为代码逻辑,依托代码的循环、函数复用能力,效率远高于传统单步动作执行模式。

3、观察-行动闭环循环

Runner汇总任务历史与终端信息下发至大模型,模型输出思考逻辑与Shell指令;环境执行指令并回传日志、截图、报错等数据,循环运行直至任务收尾。

4、本地工作区持久化

脚本、日志、截图、运行结果全部本地存储,任务完成后可留存完整可复用程序。

Webwright核心功能:

1、代码驱动浏览器操控

AI直接编写Playwright脚本,自主启停、管理浏览器会话,摆脱逐一点击、输入的传统模式。

2、Shell命令全量支持

兼容bash命令执行,结合代码与系统操作,灵活处理文件、日志及运行环境配置。

3、自检反思机制

任务结束后,模型会在全新目录重跑脚本,结合日志与截图核验结果,规避提前终止任务的问题。

4、上下文智能压缩

每执行20步自动精简历史轨迹,有效解决长链路任务的上下文冗余问题。

5、任务工具封装复用

将完成的脚本参数化为CLI工具并保存,同类任务可直接调用,减少重复开发。

Webwright使用流程:

1、环境部署:克隆代码仓库,安装依赖并配置大模型API密钥。

2、发起任务:运行`run.py`,以自然语言描述网页操作需求。

3、自动执行:框架启动闭环循环,模型编写脚本、执行指令并捕获运行数据。

4、结果核验:任务完成后,在`final_runs/`目录重跑脚本,通过自检逻辑验证执行效果。

5、资源复用:从`workspace/`目录提取生成的Python脚本,作为独立CLI工具重复使用。

Webwright核心优势:

1、极简易拓展

核心代码仅约1000行,架构直观,上手与二次开发门槛低。

2、性能领先

在长链路网页任务中性能大幅超越同类方案,主流大模型接入后均有明显效果提升。

3、终端原生能力

赋予AI完整终端操作权限,浏览器会话灵活管控,数据与日志永久留存。

4、产出可复用

任务成果可封装为独立工具,持续降低同类自动化任务的执行成本。

Webwright应用场景:

1、网页数据采集

自动编写爬虫脚本,批量完成数据抓取、表单填报、跨页信息整合,生成长效采集工具。

2、网页自动化测试

自主生成并执行测试代码,留存截图与日志,自检验证功能状态,输出测试结果。

3、复杂长流程任务

适配机票比价、酒店预订等多步骤网页操作,依靠代码逻辑简化流程、提升效率。

4、定制工具开发

把高频网页操作封装为CLI工具,搭建专属自动化工具库,实现一键调用。

标签: