Computer Use Preview是谷歌开源的AI驱动浏览器自动化工具,依托Gemini模型强大的视觉识别能力,独创「截图-分析-行动」闭环工作流,无需依赖固定元素定位,即可精准模拟人类操作逻辑,轻松应对各类复杂网页任务。在权威任务完成度测试中,该工具以69% 的优异得分超越同类产品,性能表现亮眼。
1、自然语言驱动,零门槛上手:
用户仅需通过简单的自然语言描述任务目标,AI 即可自动拆解需求、规划执行路径并完成操作,无需编写任何复杂脚本,大幅降低技术使用门槛。
2、智能动态交互,适配复杂场景:
全面支持导航、点击、表单填写、页面滚动等主流浏览器操作,Gemini 模型可实时理解网页动态变化,轻松应对弹窗、异步加载等复杂交互场景,操作稳定性远超传统工具。
3、本地+云端双环境支持,灵活部署:
- Playwright 本地模式:直接控制本地 Chrome 浏览器实例,数据处理全程本地化,适配需调用本地资源的业务场景。
- Browserbase 云端模式:无缝对接云端浏览器实例,支持分布式任务执行与海量资源调度,满足大规模自动化需求。
4、调试友好,可视化监控:
内置实时截图与鼠标高亮功能,用户可全程追踪 AI 操作轨迹,快速定位执行异常点,大幅提升调试效率与优化便捷性。
5、顶尖大模型赋能,超强任务理解力:
基于 Gemini API 与 Vertex AI 构建的核心引擎,可精准解析复杂指令,高效处理动态网页内容,轻松完成跨网站数据搬运、视觉分类等高阶任务。
1、项目下载:
前往 Computer Use Preview 的 GitHub 仓库,下载并解压项目文件至本地。
2、环境配置:
安装 Python 3.8 及以上版本,创建并激活虚拟环境,实现项目依赖隔离。
3、依赖安装:
在项目根目录执行命令,一键安装项目所需依赖及 Playwright 浏览器。
4、密钥配置:
从 Google Cloud 平台获取 Gemini API 密钥,将其添加至系统环境变量中。
5、启动运行:
输入自然语言指令即可触发任务,例如:`Go to Google and type ‘Hello World’`。
6、可选配置:
按需指定运行环境(Playwright 本地模式 / Browserbase 云端模式),并配置对应参数优化执行效果。
1、Web 自动化测试:
快速验证网页功能完整性,自动执行按钮点击、表单提交、页面跳转等测试用例,替代人工重复性操作,提升测试效率。
2、智能化数据采集:
自动爬取新闻资讯、电商商品信息、行业报告等公开数据,支持动态页面数据提取,无需编写复杂爬虫规则。
3、跨网站数据搬运:
实现不同平台、系统间的数据自动迁移与同步,例如将电商平台订单数据同步至企业 ERP 系统,简化数据流转流程。
4、日常办公任务自动化:
一键完成自动登录、定时信息查询、报表生成等重复性办公任务,节省人力成本,提升工作效率。
5、复杂视觉交互任务:
基于 Gemini 视觉识别能力,精准完成网页元素分类、拖拽排序、验证码识别辅助等高阶视觉交互操作。

本站AI工具导航站提供的「Computer Use Preview」的相关内容都来源于网络,不保证外部链接的准确性和完整性。在2025年12月30日 11时33分55秒收录时,该网站上的内容都属于合规合法,后期网站的内容如出现违规,可以直接联系网站管理员(ai@ipkd.cn)进行删除,AI工具导航站不承担任何责任。在浏览网页时,请注意您的账号和财产安全,切勿轻信网上广告!