AI工作站

FireRedASR：小红书开发的工业级自动语音识别（ASR）模型

FireRedASR 是由小红书 FireRed 团队开发并开源的一系列工业级自动语音识别（ASR）模型，专为普通话、中文方言和英语设计。该模型系列在中文普通话公开测试集上取得了新的最佳性能（SOTA），在字错误率（CER）这一核心技术指标上，相比此前的最佳模型 Seed-ASR，错误率相对降低了8.4%。此外，FireRedASR 还具备出色的歌词识别能力。

FireRedASR：小红书开发的工业级自动语音识别（ASR）模型

FireRedASR主要功能和特点如下：

1. 核心结构与模型性能

FireRedASR包含两个主要版本：FireRedASR-LLM和FireRedASR-AED。

- FireRedASR-LLM：采用基于Transformer的Encoder-Adapter-LLM框架，结合了大型语言模型（LLM）的能力。在中文普通话公开测试集上，该模型的字错误率（CER）为3.05%，相比之前的SOTA模型降低了8.4%的相对误差（CER），展现了卓越的性能。

- FireRedASR-AED：基于传统的Attention-based Encoder-Decoder框架，通过扩展参数量实现了高准确率与推理效率的平衡。其CER为3.18%，虽然略高于LLM版本，但仍然优于其他最新模型。

2. 技术特点

- 大模型能力：FireRedASR-LLM利用了LLM的强大能力，能够处理复杂的语言场景，适用于需要极高准确率的应用场景。

- 高效推理：FireRedASR-AED在保持高准确率的同时，优化了推理效率，适合资源受限的环境。

- 多场景适应性：两个版本均在多种中文语音识别任务中表现出色，包括视频直播、智能助手等多源语言场景。

FireRedASR应用场景：

- 语音助手：提供高精度的语音转文字功能，提升用户体验。

- 视频字幕生成：支持实时或批量生成视频字幕。

- 智能交互：在智能设备中实现高效、准确的语音识别。

FireRedASR对比与优势：

- 性能对比：FireRedASR在多个基准测试中超越了现有模型，例如在Mandarin benchmarks上，LLM版本的CER为3.05%，而AED版本的CER为3.18%，均优于其他最新模型。

- 资源优化：AED版本在保证性能的同时，显著减少了模型大小，适合资源受限的设备。

FireRedASR项目网址：

Github仓库：https://github.com/FireRedTeam/FireRedASR

HuggingFace模型库：https://huggingface.co/FireRedTeam/FireRedASR-AED-L

arXiv技术论文：https://arxiv.org/pdf/2501.14350

标签：