Hibiki：一款由Kyutai开发的实时同声传译语音模型

Hibiki 是由 Kyutai Labs 开发的高保真实时语音翻译模型，旨在提供接近人类同声传译的效果。该模型能够同时输出语音和文字翻译，保留说话者的声音特征，并自动调整语速以适应源语言的语义内容。目前，Hibiki 支持法语到英语的实时翻译。

1、实时语音到语音翻译（S2ST）：

- 将一种语言的语音实时翻译成另一种语言的语音，同时保留说话者的音色和语调。

- 支持高保真度的语音输出，生成的语音自然流畅。

2、实时语音到文本翻译（S2TT）：

- 将语音实时翻译成目标语言的文本，提供更灵活的使用场景。

3、低延迟翻译：

- 基于实时积累上下文信息，逐块生成翻译内容，延迟极低，接近人类口译水平。

4、高保真度和自然度：

- 生成的语音与源语音的音色和语调高度相似，用户体验接近专业人类口译。

5、支持批量和实时部署：

- 推理过程简单高效，支持批量处理和实时设备端部署。

- Hibiki 的小模型版本 Hibiki-M（17 亿参数）能够在 iPhone 16 Pro 上实时运行超过一分钟。

6、多流语言模型架构：

- 同时处理源语音和目标语音，基于多流架构联合建模两个音频流。

- 使用预训练的因果音频编解码器（如 Mimi）将语音编码为低帧率的离散标记，支持实时流式处理。

7、弱监督学习与上下文对齐：

- 基于翻译单语音频的转录文本并重新合成目标语音，生成对齐的合成数据。

- 使用现成文本翻译系统的困惑度计算单词级对齐，确保目标语音的生成与源语音的上下文同步。

8、说话者相似性与分类器自由引导：

- 对训练数据进行说话者相似性分类标记，避免过滤数据的同时，在推理时优先选择高相似性样本。

- 调整条件标签的权重，增强模型对说话者相似性的控制，进一步提升语音保真度。

9、高效的推理过程：

- 使用温度采样技术，结合因果音频编解码器，实现流式输入和输出。

- 推理过程简单高效，适合大规模应用场景。

1、国际会议：为多语言环境的国际会议提供实时语音翻译服务。

2、在线教育：帮助学生实时理解外语授课内容。

3、商务谈判：作为实时翻译助手，促进国际商务谈判的沟通。

4、旅游服务：为国际旅游者提供即时语音翻译服务。

5、医疗服务：在跨语言的医疗咨询中帮助医生和患者进行准确沟通。

2、HuggingFace模型库：https://huggingface.co/collections/kyutai/hibiki(需要科学上网)

标签：