AI工作站

PrismAudio音频框架官网，阿里通义实验室研发的Video-to-Audio视频生成音频框架

PrismAudio是阿里通义实验室研发的Video-to-Audio视频生成音频框架，可自动为无声视频生成匹配的环境音效。该模型首创分解式思维链技术，先对声音内容、时机、质感与空间位置进行推理规划，再完成音频生成；同时引入语义、时序、美学、空间四大维度评估机制，实现多维度精准优化。模型参数量仅5.18亿，生成9秒音频耗时低至0.63秒，综合性能全面领先现有方案，相关成果已被ICLR2026正式收录。

PrismAudio音频框架官网，阿里通义实验室研发的Video-to-Audio视频生成音频框架

PrismAudio核心功能：

1、视频智能转音频：自动为无声视频生成贴合画面的环境音效，涵盖马蹄声、风雨声等各类场景音。

2、语义精准对齐：确保生成音效与视频内物体、动作高度匹配，杜绝音画脱节问题。

3、时序严格同步：精准把控声音与视觉事件的触发时机，实现音画高度同步。

4、听觉美学优化：输出自然流畅、层次丰富、无机械电子感的高品质音频。

5、三维空间定位：支持立体声输出，依据画面声源位置动态调节声道，实现沉浸式听声辨位。

6、可解释思维链：采用“先推理、后生成”模式，音频生成过程透明可控。

PrismAudio使用方式：

1、在线体验（新手首选）：

通过HuggingFace在线Demo上传无声视频，可搭配文本描述辅助生成，AI一键输出音频文件。

2、本地部署：

从GitHub或HuggingFace获取开源代码与模型权重，配置依赖环境并加载预训练模型，传入视频路径调用推理接口即可生成音频；支持自定义调整思维链参数与奖励权重。

PrismAudio项目地址：

1、项目官网：https://prismaudio-project.github.io/

2、GitHub仓库：https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio

3、HuggingFace模型库：https://huggingface.co/FunAudioLLM/PrismAudio

4、arXiv技术论文：https://arxiv.org/pdf/2511.18833

5、在线体验Demo：https://huggingface.co/spaces/FunAudioLLM/PrismAudio

标签：