AI工作站

PrismAudio音频框架官网,阿里通义实验室研发的Video-to-Audio视频生成音频框架

AI行业资讯 2026-03-24 21:29:49 

PrismAudio是阿里通义实验室研发的Video-to-Audio视频生成音频框架,可自动为无声视频生成匹配的环境音效。该模型首创分解式思维链技术,先对声音内容、时机、质感与空间位置进行推理规划,再完成音频生成;同时引入语义、时序、美学、空间四大维度评估机制,实现多维度精准优化。模型参数量仅5.18亿,生成9秒音频耗时低至0.63秒,综合性能全面领先现有方案,相关成果已被ICLR2026正式收录。

PrismAudio音频框架官网,阿里通义实验室研发的Video-to-Audio视频生成音频框架

PrismAudio核心功能:

1、视频智能转音频:自动为无声视频生成贴合画面的环境音效,涵盖马蹄声、风雨声等各类场景音。

2、语义精准对齐:确保生成音效与视频内物体、动作高度匹配,杜绝音画脱节问题。

3、时序严格同步:精准把控声音与视觉事件的触发时机,实现音画高度同步。

4、听觉美学优化:输出自然流畅、层次丰富、无机械电子感的高品质音频。

5、三维空间定位:支持立体声输出,依据画面声源位置动态调节声道,实现沉浸式听声辨位。

6、可解释思维链:采用“先推理、后生成”模式,音频生成过程透明可控。

PrismAudio使用方式:

1、在线体验(新手首选)

通过HuggingFace在线Demo上传无声视频,可搭配文本描述辅助生成,AI一键输出音频文件。

2、本地部署

GitHub或HuggingFace获取开源代码与模型权重,配置依赖环境并加载预训练模型,传入视频路径调用推理接口即可生成音频;支持自定义调整思维链参数与奖励权重。

PrismAudio项目地址:

1、项目官网https://prismaudio-project.github.io/

2、GitHub仓库https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio

3、HuggingFace模型库https://huggingface.co/FunAudioLLM/PrismAudio

4、arXiv技术论文https://arxiv.org/pdf/2511.18833

5、在线体验Demohttps://huggingface.co/spaces/FunAudioLLM/PrismAudio

标签: