AI工作站

Xiaomi OneVL - 小米具身智能团队自研的开源自动驾驶大模型

AI行业资讯 2026-05-15 05:46:10 

Xiaomi OneVL小米具身智能团队自研的开源自动驾驶大模型,业内首创将VLA视觉-语言-动作、世界模型、潜空间推理三大技术路线统一于单一框架,实现“推理速度等同直推、精度超越显式思维链”的突破性体验,车端推理低至0.24秒,并在四大权威基准上斩获SOTA,模型与代码以Apache 2.0协议完全开源。

Xiaomi OneVL官方地址:

1、项目官网入口:https://xiaomi-embodied-intelligence.github.io/OneVL/

2、GitHub仓库:https://github.com/xiaomi-research/onevl

3、技术论文:https://arxiv.org/pdf/2604.18486

Xiaomi OneVL:小米具身智能团队自研的开源自动驾驶大模型

Xiaomi OneVL核心功能:

1、VLA 视觉-语言-动作统一推理

一体化融合场景理解、语言推理、驾驶决策与轨迹输出,构建感知→推理→决策→执行的端到端闭环。

2、世界模型未来帧预测

视觉解码器可精准预测 0.5s / 1.0s 未来场景,让模型内化道路几何、车辆运动与环境变化的真实物理因果规律。

3、Latent CoT 潜空间思维链推理

推理过程在紧凑潜空间内完成,丢弃辅助解码器,通过 单次并行预填 实现极速推理,延迟低至 0.24s。

4、双模态解码器监督训练

训练阶段由语言解码器重建思维链、视觉解码器预测未来画面,双重监督让潜变量同时编码语义逻辑与物理规律。

5、高精度轨迹规划输出

基于 Qwen3-VL-4B-Instruct 主干 + MLP 轻量头,NAVSIM 基准 PDM-score 高达 88.84,超越多数 8B 模型。

Xiaomi OneVL核心优势:

1、速度与精度双突破

全球首个精度超越显式 CoT 的潜空间推理方案,推理速度与“直接预测”相当,比传统 CoT 快 32%,车端低至 0.24s。

2、三大技术首创融合

统一 VLA、世界模型、潜空间推理,让模型兼具理解、推理、因果推演与未来预测能力。

3、双维度可解释决策

同时输出文字思维链解释 + 未来画面预测,从根源解决自动驾驶决策“黑盒不可解释”问题。

4、小模型、高性能

仅 4B 参数主干,在 NAVSIM 等四大基准全面超越 8B 竞品,轻量化更适合车端部署。

5、全栈开源可商用

权重、训练/推理代码、论文全部开源,Apache 2.0 协议允许学术研究与商业落地自由使用。

6、四大基准全 SOTA

在 NAVSIM、ROADWork、Impromptu、Alpamayo-R1 全部登顶最优,其中 Alpamayo-R1 ADE 全球第一。

标签: