AI工作站

AI创新应用Xiaomi-MiMo-Audio小米开源的首个原生端到端语音大模型,参数规模达70亿,预训练数据超过1亿小时。
爱站权重:爱站爱站爱站爱站爱站
创建快捷到桌面设置为浏览器首页或按 Ctrl+D 收藏本页到浏览器收藏夹回家不迷路!

Xiaomi-MiMo-Audio小米开源的首个原生端到端语音大模型,参数规模达70亿,预训练数据超过1亿小时。该模型基于创新的预训练架构,首次在语音领域实现了基于上下文学习(ICL)的少样本泛化能力,并在预训练阶段观察到了明显的“涌现”行为。它在语音智能和音频理解基准测试中均达到了开源模型中的最佳性能(SOTA),在多项测试中超越了同参数量的开源模型、谷歌的 Gemini-2.5-Flash 以及 OpenAIGPT-4o-Audio-Preview。

Xiaomi-MiMo-Audio功能特点:

1、多语言对话与自然交互

- 支持多语言对话,能够与用户进行流畅自然的交流,无论是谈人生理想、物理知识,还是网络热梗,都能应对自如。

- 具备高度拟人化的语音对话能力,被打断后也能快速反应并继续对话。

2、语音续写与生成

- 能够根据给定的音频提示生成连贯且适合上下文的延续,保留说话者身份、韵律和环境声音等关键声学特性。

- 可生成多种风格的语音内容,如脱口秀、朗诵、直播、辩论等。

3、少样本泛化能力

- 首次在语音领域实现基于上下文学习的少样本泛化,即使训练数据中缺失某些任务,如语音转换、风格迁移和语音编辑,模型也能应对。

4、强大的音频理解能力

- 具备音频字幕、音频推理和长时间音频理解功能,能够提供跨领域和场景的音频内容详细描述,并进行复杂音频内容的深入理解和分析。

- 在音频理解基准测试中,如MMAU、Big Bench Audio等,均达到了开源模型中的最佳性能。

5、技术创新与开源贡献

- 首次证明语音无损压缩预训练扩展至1亿小时可以“涌现”出跨任务的泛化性。

- 开源了一套完整的语音预训练方案,包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系。

- 是首个将思考同时引入语音理解和语音生成过程中的开源模型,支持混合思考。

6、多场景应用

- 可应用于多种场景,如英语口语陪练、心灵导师、游戏直播、上课、唱歌、讲脱口秀等。

Xiaomi-MiMo-Audio项目地址:

1、Xiaomi-MiMo-Audio项目官网:https://xiaomimimo.github.io/MiMo-Audio-Demo/

2、Xiaomi-MiMo-Audio Github仓库:https://github.com/XiaomiMiMo/MiMo-Audio

3、HuggingFace模型库

MiMo-Audio-7B-Base:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base

MiMo-Audio-7B-Instruct:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

Tokenizer:https://huggingface.co/XiaomiMiMo/MiMo-Audio-Tokenizer

4、Xiaomi-MiMo-Audio技术论文:https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf

Trae:新一代免费的AI编程工具

数据统计