AI工作站

Hibiki:一款由Kyutai开发的实时同声传译语音模型

AI行业资讯 2025-02-10 08:04:14 

Hibiki 是由 Kyutai Labs 开发的高保真实时语音翻译模型,旨在提供接近人类同声传译的效果。该模型能够同时输出语音和文字翻译,保留说话者的声音特征,并自动调整语速以适应源语言的语义内容。目前,Hibiki 支持法语到英语的实时翻译。

Hibiki:一款由Kyutai开发的实时同声传译语音模型

Hibiki功能特点:

1、实时语音到语音翻译(S2ST)

 - 将一种语言的语音实时翻译成另一种语言的语音,同时保留说话者的音色和语调。

 - 支持高保真度的语音输出,生成的语音自然流畅。

2、实时语音到文本翻译(S2TT)

 - 将语音实时翻译成目标语言的文本,提供更灵活的使用场景。

3、低延迟翻译

 - 基于实时积累上下文信息,逐块生成翻译内容,延迟极低,接近人类口译水平。

4、高保真度和自然度

 - 生成的语音与源语音的音色和语调高度相似,用户体验接近专业人类口译。

5、支持批量和实时部署

 - 推理过程简单高效,支持批量处理和实时设备端部署。

 - Hibiki 的小模型版本 Hibiki-M(17 亿参数)能够在 iPhone 16 Pro 上实时运行超过一分钟。

6、多流语言模型架构

 - 同时处理源语音和目标语音,基于多流架构联合建模两个音频流。

 - 使用预训练的因果音频编解码器(如 Mimi)将语音编码为低帧率的离散标记,支持实时流式处理。

7、弱监督学习与上下文对齐

 - 基于翻译单语音频的转录文本并重新合成目标语音,生成对齐的合成数据。

 - 使用现成文本翻译系统的困惑度计算单词级对齐,确保目标语音的生成与源语音的上下文同步。

8、说话者相似性与分类器自由引导

 - 对训练数据进行说话者相似性分类标记,避免过滤数据的同时,在推理时优先选择高相似性样本。

 - 调整条件标签的权重,增强模型对说话者相似性的控制,进一步提升语音保真度。

9、高效的推理过程

 - 使用温度采样技术,结合因果音频编解码器,实现流式输入和输出。

 - 推理过程简单高效,适合大规模应用场景。

Hibiki应用场景:

1、国际会议:为多语言环境的国际会议提供实时语音翻译服务。

2、在线教育:帮助学生实时理解外语授课内容。

3、商务谈判:作为实时翻译助手,促进国际商务谈判的沟通。

4、旅游服务:为国际旅游者提供即时语音翻译服务。

5、医疗服务:在跨语言的医疗咨询中帮助医生和患者进行准确沟通。

Hibiki项目网址:

1、GitHub仓库https://github.com/kyutai-labs/hibiki

2、HuggingFace模型库https://huggingface.co/collections/kyutai/hibiki(需要科学上网)

3、arXiv技术论文https://arxiv.org/pdf/2502.03382

标签: