Hibiki 是由 Kyutai Labs 开发的高保真实时语音翻译模型,旨在提供接近人类同声传译的效果。该模型能够同时输出语音和文字翻译,保留说话者的声音特征,并自动调整语速以适应源语言的语义内容。目前,Hibiki 支持法语到英语的实时翻译。
1、实时语音到语音翻译(S2ST):
- 将一种语言的语音实时翻译成另一种语言的语音,同时保留说话者的音色和语调。
- 支持高保真度的语音输出,生成的语音自然流畅。
2、实时语音到文本翻译(S2TT):
- 将语音实时翻译成目标语言的文本,提供更灵活的使用场景。
3、低延迟翻译:
- 基于实时积累上下文信息,逐块生成翻译内容,延迟极低,接近人类口译水平。
4、高保真度和自然度:
- 生成的语音与源语音的音色和语调高度相似,用户体验接近专业人类口译。
5、支持批量和实时部署:
- 推理过程简单高效,支持批量处理和实时设备端部署。
- Hibiki 的小模型版本 Hibiki-M(17 亿参数)能够在 iPhone 16 Pro 上实时运行超过一分钟。
6、多流语言模型架构:
- 同时处理源语音和目标语音,基于多流架构联合建模两个音频流。
- 使用预训练的因果音频编解码器(如 Mimi)将语音编码为低帧率的离散标记,支持实时流式处理。
7、弱监督学习与上下文对齐:
- 基于翻译单语音频的转录文本并重新合成目标语音,生成对齐的合成数据。
- 使用现成文本翻译系统的困惑度计算单词级对齐,确保目标语音的生成与源语音的上下文同步。
8、说话者相似性与分类器自由引导:
- 对训练数据进行说话者相似性分类标记,避免过滤数据的同时,在推理时优先选择高相似性样本。
- 调整条件标签的权重,增强模型对说话者相似性的控制,进一步提升语音保真度。
9、高效的推理过程:
- 使用温度采样技术,结合因果音频编解码器,实现流式输入和输出。
- 推理过程简单高效,适合大规模应用场景。
1、国际会议:为多语言环境的国际会议提供实时语音翻译服务。
2、在线教育:帮助学生实时理解外语授课内容。
3、商务谈判:作为实时翻译助手,促进国际商务谈判的沟通。
4、旅游服务:为国际旅游者提供即时语音翻译服务。
5、医疗服务:在跨语言的医疗咨询中帮助医生和患者进行准确沟通。
1、GitHub仓库:https://github.com/kyutai-labs/hibiki
2、HuggingFace模型库:https://huggingface.co/collections/kyutai/hibiki(需要科学上网)
3、arXiv技术论文:https://arxiv.org/pdf/2502.03382
标签:
短剧搜索AI辅助工具电影下载软件资源ppt模板前端UI组件库ChatGPT在线漫画学习资源UI组件库影视资源教师必备投诉举报体育频道知识百科