PrismAudio是阿里通义实验室研发的Video-to-Audio视频生成音频框架,可自动为无声视频生成匹配的环境音效。该模型首创分解式思维链技术,先对声音内容、时机、质感与空间位置进行推理规划,再完成音频生成;同时引入语义、时序、美学、空间四大维度评估机制,实现多维度精准优化。模型参数量仅5.18亿,生成9秒音频耗时低至0.63秒,综合性能全面领先现有方案,相关成果已被ICLR2026正式收录。

1、视频智能转音频:自动为无声视频生成贴合画面的环境音效,涵盖马蹄声、风雨声等各类场景音。
2、语义精准对齐:确保生成音效与视频内物体、动作高度匹配,杜绝音画脱节问题。
3、时序严格同步:精准把控声音与视觉事件的触发时机,实现音画高度同步。
4、听觉美学优化:输出自然流畅、层次丰富、无机械电子感的高品质音频。
5、三维空间定位:支持立体声输出,依据画面声源位置动态调节声道,实现沉浸式听声辨位。
6、可解释思维链:采用“先推理、后生成”模式,音频生成过程透明可控。
1、在线体验(新手首选):
通过HuggingFace在线Demo上传无声视频,可搭配文本描述辅助生成,AI一键输出音频文件。
2、本地部署:
从GitHub或HuggingFace获取开源代码与模型权重,配置依赖环境并加载预训练模型,传入视频路径调用推理接口即可生成音频;支持自定义调整思维链参数与奖励权重。
1、项目官网:https://prismaudio-project.github.io/
2、GitHub仓库:https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
3、HuggingFace模型库:https://huggingface.co/FunAudioLLM/PrismAudio
4、arXiv技术论文:https://arxiv.org/pdf/2511.18833
5、在线体验Demo:https://huggingface.co/spaces/FunAudioLLM/PrismAudio
标签:


前端UI组件库下载中心影视名站AI语言翻译小说文学AI三维生成国产AI资源服务平台AI营销工具AI金融事务ChatGPT思维导图投诉举报文字工具大语言模型