Xiaomi OneVL是小米具身智能团队自研的开源自动驾驶大模型,业内首创将VLA视觉-语言-动作、世界模型、潜空间推理三大技术路线统一于单一框架,实现“推理速度等同直推、精度超越显式思维链”的突破性体验,车端推理低至0.24秒,并在四大权威基准上斩获SOTA,模型与代码以Apache 2.0协议完全开源。
1、项目官网入口:https://xiaomi-embodied-intelligence.github.io/OneVL/
2、GitHub仓库:https://github.com/xiaomi-research/onevl
3、技术论文:https://arxiv.org/pdf/2604.18486

1、VLA 视觉-语言-动作统一推理:
一体化融合场景理解、语言推理、驾驶决策与轨迹输出,构建感知→推理→决策→执行的端到端闭环。
2、世界模型未来帧预测:
视觉解码器可精准预测 0.5s / 1.0s 未来场景,让模型内化道路几何、车辆运动与环境变化的真实物理因果规律。
3、Latent CoT 潜空间思维链推理:
推理过程在紧凑潜空间内完成,丢弃辅助解码器,通过 单次并行预填 实现极速推理,延迟低至 0.24s。
4、双模态解码器监督训练:
训练阶段由语言解码器重建思维链、视觉解码器预测未来画面,双重监督让潜变量同时编码语义逻辑与物理规律。
5、高精度轨迹规划输出:
基于 Qwen3-VL-4B-Instruct 主干 + MLP 轻量头,NAVSIM 基准 PDM-score 高达 88.84,超越多数 8B 模型。
1、速度与精度双突破:
全球首个精度超越显式 CoT 的潜空间推理方案,推理速度与“直接预测”相当,比传统 CoT 快 32%,车端低至 0.24s。
2、三大技术首创融合:
统一 VLA、世界模型、潜空间推理,让模型兼具理解、推理、因果推演与未来预测能力。
3、双维度可解释决策:
同时输出文字思维链解释 + 未来画面预测,从根源解决自动驾驶决策“黑盒不可解释”问题。
4、小模型、高性能:
仅 4B 参数主干,在 NAVSIM 等四大基准全面超越 8B 竞品,轻量化更适合车端部署。
5、全栈开源可商用:
权重、训练/推理代码、论文全部开源,Apache 2.0 协议允许学术研究与商业落地自由使用。
6、四大基准全 SOTA:
在 NAVSIM、ROADWork、Impromptu、Alpamayo-R1 全部登顶最优,其中 Alpamayo-R1 ADE 全球第一。
标签:


AI内容检测在线学习平台短剧搜索AI开放平台AI写真思维导图短剧资源学术论文AI办公效率教师必备在线教育平台影音娱乐电子书创意设计电影下载