AI工作站

FireRedASR:小红书开发的工业级自动语音识别(ASR)模型

AI行业资讯 2025-02-10 07:53:47 

FireRedASR 是由小红书 FireRed 团队开发并开源的一系列工业级自动语音识别(ASR)模型,专为普通话、中文方言和英语设计。该模型系列在中文普通话公开测试集上取得了新的最佳性能(SOTA),在字错误率(CER)这一核心技术指标上,相比此前的最佳模型 Seed-ASR,错误率相对降低了8.4%。此外,FireRedASR 还具备出色的歌词识别能力。

FireRedASR:小红书开发的工业级自动语音识别(ASR)模型

FireRedASR主要功能和特点如下:

1. 核心结构与模型性能

FireRedASR包含两个主要版本:FireRedASR-LLM和FireRedASR-AED。

- FireRedASR-LLM:采用基于Transformer的Encoder-Adapter-LLM框架,结合了大型语言模型(LLM)的能力。在中文普通话公开测试集上,该模型的字错误率(CER)为3.05%,相比之前的SOTA模型降低了8.4%的相对误差(CER),展现了卓越的性能。

- FireRedASR-AED:基于传统的Attention-based Encoder-Decoder框架,通过扩展参数量实现了高准确率与推理效率的平衡。其CER为3.18%,虽然略高于LLM版本,但仍然优于其他最新模型。

2. 技术特点

- 大模型能力:FireRedASR-LLM利用了LLM的强大能力,能够处理复杂的语言场景,适用于需要极高准确率的应用场景。

- 高效推理:FireRedASR-AED在保持高准确率的同时,优化了推理效率,适合资源受限的环境。

- 多场景适应性:两个版本均在多种中文语音识别任务中表现出色,包括视频直播、智能助手等多源语言场景。

FireRedASR应用场景:

- 语音助手:提供高精度的语音转文字功能,提升用户体验。

- 视频字幕生成:支持实时或批量生成视频字幕。

- 智能交互:在智能设备中实现高效、准确的语音识别。

FireRedASR对比与优势:

- 性能对比:FireRedASR在多个基准测试中超越了现有模型,例如在Mandarin benchmarks上,LLM版本的CER为3.05%,而AED版本的CER为3.18%,均优于其他最新模型。

- 资源优化:AED版本在保证性能的同时,显著减少了模型大小,适合资源受限的设备。

FireRedASR项目网址:

Github仓库https://github.com/FireRedTeam/FireRedASR

HuggingFace模型库https://huggingface.co/FireRedTeam/FireRedASR-AED-L

arXiv技术论文https://arxiv.org/pdf/2501.14350

标签:

阿里巴巴·绘蛙

一款AI电商营销工具!阿里巴巴·绘蛙

云雀大模型

字节跳动研发的一款先进的语言模型!云雀大模型

热门工具

热门标签

大语言模型在线工具AI法律服务在线漫画AI头像绘制AI内容检测体育频道AI学习框架OCR识别AI搜索引擎mac软件下载AI开放平台ppt模板AI开发框架AI辅助工具