AI工作站

Xiaomi OneVL - 小米具身智能团队自研的开源自动驾驶大模型

Xiaomi OneVL是小米具身智能团队自研的开源自动驾驶大模型，业内首创将VLA视觉-语言-动作、世界模型、潜空间推理三大技术路线统一于单一框架，实现“推理速度等同直推、精度超越显式思维链”的突破性体验，车端推理低至0.24秒，并在四大权威基准上斩获SOTA，模型与代码以Apache 2.0协议完全开源。

Xiaomi OneVL官方地址：

1、项目官网入口：https://xiaomi-embodied-intelligence.github.io/OneVL/

2、GitHub 仓库：https://github.com/xiaomi-research/onevl

3、技术论文：https://arxiv.org/pdf/2604.18486

Xiaomi OneVL：小米具身智能团队自研的开源自动驾驶大模型

Xiaomi OneVL核心功能：

1、VLA 视觉-语言-动作统一推理：

一体化融合场景理解、语言推理、驾驶决策与轨迹输出，构建感知→推理→决策→执行的端到端闭环。

2、世界模型未来帧预测：

视觉解码器可精准预测 0.5s / 1.0s 未来场景，让模型内化道路几何、车辆运动与环境变化的真实物理因果规律。

3、Latent CoT 潜空间思维链推理：

推理过程在紧凑潜空间内完成，丢弃辅助解码器，通过单次并行预填实现极速推理，延迟低至 0.24s。

4、双模态解码器监督训练：

训练阶段由语言解码器重建思维链、视觉解码器预测未来画面，双重监督让潜变量同时编码语义逻辑与物理规律。

5、高精度轨迹规划输出：

基于 Qwen3-VL-4B-Instruct 主干 + MLP 轻量头，NAVSIM 基准 PDM-score 高达 88.84，超越多数 8B 模型。

Xiaomi OneVL核心优势：

1、速度与精度双突破：

全球首个精度超越显式 CoT 的潜空间推理方案，推理速度与“直接预测”相当，比传统 CoT 快 32%，车端低至 0.24s。

2、三大技术首创融合：

统一 VLA、世界模型、潜空间推理，让模型兼具理解、推理、因果推演与未来预测能力。

3、双维度可解释决策：

同时输出文字思维链解释 + 未来画面预测，从根源解决自动驾驶决策“黑盒不可解释”问题。

4、小模型、高性能：

仅 4B 参数主干，在 NAVSIM 等四大基准全面超越 8B 竞品，轻量化更适合车端部署。

5、全栈开源可商用：

权重、训练/推理代码、论文全部开源，Apache 2.0 协议允许学术研究与商业落地自由使用。

6、四大基准全 SOTA：

在 NAVSIM、ROADWork、Impromptu、Alpamayo-R1 全部登顶最优，其中 Alpamayo-R1 ADE 全球第一。

标签：