FireRedASR 是由小红书 FireRed 团队开发并开源的一系列工业级自动语音识别(ASR)模型,专为普通话、中文方言和英语设计。该模型系列在中文普通话公开测试集上取得了新的最佳性能(SOTA),在字错误率(CER)这一核心技术指标上,相比此前的最佳模型 Seed-ASR,错误率相对降低了8.4%。此外,FireRedASR 还具备出色的歌词识别能力。
1. 核心结构与模型性能
FireRedASR包含两个主要版本:FireRedASR-LLM和FireRedASR-AED。
- FireRedASR-LLM:采用基于Transformer的Encoder-Adapter-LLM框架,结合了大型语言模型(LLM)的能力。在中文普通话公开测试集上,该模型的字错误率(CER)为3.05%,相比之前的SOTA模型降低了8.4%的相对误差(CER),展现了卓越的性能。
- FireRedASR-AED:基于传统的Attention-based Encoder-Decoder框架,通过扩展参数量实现了高准确率与推理效率的平衡。其CER为3.18%,虽然略高于LLM版本,但仍然优于其他最新模型。
2. 技术特点
- 大模型能力:FireRedASR-LLM利用了LLM的强大能力,能够处理复杂的语言场景,适用于需要极高准确率的应用场景。
- 高效推理:FireRedASR-AED在保持高准确率的同时,优化了推理效率,适合资源受限的环境。
- 多场景适应性:两个版本均在多种中文语音识别任务中表现出色,包括视频直播、智能助手等多源语言场景。
- 语音助手:提供高精度的语音转文字功能,提升用户体验。
- 视频字幕生成:支持实时或批量生成视频字幕。
- 智能交互:在智能设备中实现高效、准确的语音识别。
- 性能对比:FireRedASR在多个基准测试中超越了现有模型,例如在Mandarin benchmarks上,LLM版本的CER为3.05%,而AED版本的CER为3.18%,均优于其他最新模型。
- 资源优化:AED版本在保证性能的同时,显著减少了模型大小,适合资源受限的设备。
Github仓库:https://github.com/FireRedTeam/FireRedASR
HuggingFace模型库:https://huggingface.co/FireRedTeam/FireRedASR-AED-L
arXiv技术论文:https://arxiv.org/pdf/2501.14350
标签:
大语言模型在线工具AI法律服务在线漫画AI头像绘制AI内容检测体育频道AI学习框架OCR识别AI搜索引擎mac软件下载AI开放平台ppt模板AI开发框架AI辅助工具