GLM-5V-Turbo是智谱AI推出的原生多模态Coding基座模型,专为视觉编程与AI Agent场景打造。模型在预训练阶段即深度融合视觉与文本能力,支持图片、视频、设计稿等多模态输入,上下文窗口高达200k。可直接理解界面截图并生成可运行代码,在Design2Code、GUI Agent等多项基准中表现领先。同时深度协同Claude Code、AutoClaw等Agent生态,具备“看图写代码”与自主任务执行能力,实现从纯文本到视觉交互的编程范式升级。
1、设计稿转代码:
支持从草图、UI设计稿、网页截图自动生成完整可运行前端工程,精准还原布局、配色与交互逻辑。
2、GUI自主复刻:
可自主浏览目标网站,采集页面结构、跳转关系与视觉素材,自动生成代码完成整站复刻。
3、交互式迭代编辑:
支持可视化代码迭代,可增删模块、调整布局,并补充按钮反馈、表单联动等交互逻辑。
4、多模态原生理解:
原生支持图像、视频、设计稿、文档版面输入,集成画框、截图、网页读取等工具能力,支持200k上下文。
5、Agent视觉增强:
深度适配Claude Code、AutoClaw等框架,实现“环境感知→任务规划→执行”完整闭环,赋予Agent真实视觉能力。
6、GUI自主操控:
可在Android、Web等图形界面中自主定位元素、导航页面并完成自动化任务。
7、金融图表解析:
直接理解K线、估值图、券商研报等复杂图表,自动生成专业图文分析报告或PPT。
8、多模态深度研究:
支持多源信息并行采集与多模态搜索,可输出结构化深度研究内容。
9、开箱即用Skills:
内置官方技能库,涵盖OCR、表格/手写体/公式识别、文生图、简历筛选等,一键调用即用。
产品端直接体验
1、AutoClaw(澳龙):
访问AutoClaw官网,体验Agent视觉能力与“股票分析师”等Skill。
2、Z.ai:
访问Z.ai官网,直接进行多模态对话与编程任务。
API开发接入
1、BigModel开放平台:
通过 https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo 获取API文档与接入方式。
2、Z.ai开发者平台:
访问 https://docs.z.ai/guides/vlm/glm-5v-turbo 查看详细接入指南。
目前面向Coding Plan用户开放优先申请,后续将正式纳入GLM Coding Plan体系。
https://zhipu-ai.feishu.cn/share/base/form/shrcndgpmRlJoD5rMmIavUrPwzg
1、原生多模态融合:
从预训练阶段统一融合视觉与文本,而非后期拼接,真正实现“看得懂、写得准”。
2、视觉编程业界领先:
在Design2Code(94.8)、Flame-VLM-Code(93.8)等核心基准超越同类,支持从草图到完整前端一键生成。
3、纯文本能力零退化:
多任务协同训练保证视觉增强的同时,文本编程、推理与工具调用能力不下降,CC-Bench-V2表现稳定。
4、Agent视觉感知更强:
为主流Agent框架提供视觉能力,在AndroidWorld、WebVoyager等GUI操控基准成绩突出。
5、完备多模态工具链:
原生支持画框、截图、网页读取、多模态搜索,打通“感知—决策—执行”全链路。
6、多能力均衡提升:
30+领域协同强化学习,实现感知、推理、Agent执行能力同步增强,避免能力偏科。
1、前端智能开发:
设计稿/截图一键生成前端工程,支持网站克隆与交互迭代。
2、Agent视觉增强:
为AutoClaw、Claude Code等提供视觉感知,实现网页浏览、界面操控与复杂任务自动化。
3、金融数据分析:
解析K线、研报图表,多源数据整合生成专业分析报告与PPT。
4、多模态深度研究:
结合图像、视频、文档完成检索、问答、Grounding、Captioning、OCR等任务。
5、企业自动化工作流:
Design2Code智能开发、复杂商业文档处理、基于视觉的自动化测试与界面校验。
标签:


mac软件下载体育频道思维导图AI抠图资源服务平台生物医学在线漫画影视下载法律咨询教师必备UI组件库AIGC下载中心AI数字虚拟人短剧搜索