FireRedTTS-2是由小红书开源的一款面向多说话者对话生成的长篇流式文本转语音(TTS)系统,旨在提供稳定、自然的语音输出,同时实现可靠的说话人切换和语境感知的韵律。该系统在支持多语言、实现超低延迟方面取得了显著突破,使其成为长对话、实时交互场景的理想选择。
1、GitHub仓库:https://github.com/FireRedTeam/FireRedTTS2
2、项目官网:https://fireredteam.github.io/demos/firered_tts_2/
3、arXiv技术论文:https://arxiv.org/pdf/2509.02020v1
1、长对话语音生成能力:支持生成长达3分钟的四说话者对话,并可通过扩展训练语料轻松扩展至更长、更多说话者的对话场景。这为多角色叙事和复杂场景模拟提供了可能。
2、广泛的多语言支持:支持英语、中文、日语、韩语、法语、德语和俄语等多种语言。同时,它还支持零样本(zero-shot)语音克隆,可应用于跨语言及语码转换(code-switching)场景。
3、超低延迟流式生成:基于新型12.5Hz流式语音分词器和双Transformer架构,实现了灵活的逐句生成,显著降低了首包延迟。在L20 GPU上,其首包延迟可低至140ms,同时保持高质量音频输出。
4、卓越的稳定性与音质:在独白和对话测试中,展现出高相似度、低词错误率(WER)/字符错误率(CER)的强大稳定性,确保了生成语音的清晰度和自然度。
5、随机音色生成功能:提供随机音色生成能力,这对于创建大量多样化的自动语音识别(ASR)或语音交互训练数据,具有极高的实用价值。
2、播客与有声内容生成:用于制作多说话人、多语言的播客和长篇有声读物。
3、智能聊天机器人与虚拟助手:为聊天框架集成提供实时、富有情感和上下文感知的语音交互。
4、语音克隆与定制化声音:支持零样本语音克隆,用于生成与目标说话人高度相似的语音。
5、语音交互系统开发:提供多样化的测试素材和随机音色生成,满足不同场景的语音交互需求。
6、多语言客服与国际会议:适用于需要多语言支持的语音应用,如国际化服务。
本站AI工具导航站提供的「FireRedTTS-2」的相关内容都来源于网络,不保证外部链接的准确性和完整性。在2025年09月13日 09时13分56秒收录时,该网站上的内容都属于合规合法,后期网站的内容如出现违规,可以直接联系网站管理员(ai@ipkd.cn)进行删除,AI工具导航站不承担任何责任。在浏览网页时,请注意您的账号和财产安全,切勿轻信网上广告!
100年美国总统选举各州分析图 2024年择吉老黄历 八字取名 2024年彝族日历 周公解梦大师 ai换脸软件3D框架NFT艺术藏品WordPress插件昆虫Word转PDF剧本文案图片编辑股票选股涂鸦生图