AI工作站

SongGeneration 2音乐生成模型,腾讯×清华开源·4B参数音乐生成大模型

AI行业资讯 2026-03-11 20:29:46 

SongGeneration 2腾讯清华大学联合开源的4B参数多模态音乐生成大模型,采用混合LLM‑扩散架构与分层表征设计,实现商业级音乐生成质量。其核心优势在于歌词发音准确率达8.55%PER,全面超越Suno v5等主流商业模型。模型支持多语种、复杂多轨编曲,可通过文本与音频提示精准控制风格,且能在22GB显存的消费级硬件上本地运行,1分钟内生成完整歌曲,是一款高性能、亲民化的音乐创作工具

SongGeneration 2音乐生成模型,腾讯×清华开源·4B参数音乐生成大模型

SongGeneration 2核心功能:

1、商业级高质量歌曲生成

基于混合LLM‑扩散架构,可生成长达4分30秒、旋律优美、编曲层次丰富的完整歌曲,媲美专业录音棚制作水平。

2、多语种高精度歌词合成

支持中、英、西、日等多语种歌词生成,以8.55%的极低音素错误率实现清晰、标准、自然的发音效果,远超同类产品。

3、多样化输出模式

灵活生成完整歌曲、纯音乐、纯人声,或分离为人声+伴奏双音轨,满足不同创作场景与后期处理需求。

4、精准风格与内容控制

支持通过文本描述(曲风、情绪、乐器、速度)或10秒音频提示,精确控制生成音乐的风格、旋律与编曲,实现高度定制化。

5、灵活部署与本地运行

支持在22GB显存消费级硬件上本地部署,也可在HuggingFace Space在线快速体验;同时提供低显存适配方案,降低使用门槛。

SongGeneration 2技术原理:

1、混合LLM‑扩散架构(核心突破)

- LeLM(语言模型):作为“作曲大脑”,负责统筹全局音乐结构、旋律走向与演奏细节,把握音乐性与逻辑性。

- 扩散模型:作为“高保真渲染器”,在语言模型指导下合成复杂声学细节,确保音质饱满、细节丰富。

二者协同,实现音乐性与音质的完美平衡。

2、分层表征建模(分层设计)

- 混合表征(Mixed Tokens):并行捕捉高层级的旋律、节奏、结构等宏观语义。

- 多轨表征(Dual‑Track Tokens):细粒度分别建模人声与伴奏轨道的声学变化,实现多轨分离与精细控制。

3、自动化美学评估(音乐性先验)

基于11,717个专家标注样本构建细粒度评估框架,为训练注入专业音乐美学知识;推理阶段引入音乐性标签CFG策略,确保生成内容的艺术性与合理性。

4、三阶段渐进式后训练(极致优化)

- SFT(监督微调):收窄数据分布,构建高质量生成底座。

- 大规模离线DPO:利用20万对严格正负样本,精准消除歌词“幻觉”,提升内容准确性。

- 半在线DPO:周期性更新模型,持续突破音乐性与生成质量的上限。

SongGeneration 2应用场景:

1、音乐创作与制作

独立音乐人、制作人可快速生成Demo验证创意,大幅降低编曲成本与制作周期,实现灵感的快速落地。

2、视频与自媒体配乐

自媒体、短视频创作者可根据视频风格与情绪,即时生成定制化背景音乐,提升内容音频质感。

3、游戏音频开发

游戏厂商可批量为不同场景、角色、剧情生成适配的主题音乐与音效,丰富游戏沉浸感。

4、广告与品牌营销

品牌方可按活动Campaign调性生成专属jingle与音频广告,实现品牌音频资产的快速迭代与个性化。

5、教育与娱乐场景

音乐教学平台提供风格化伴奏生成,辅助教学;K歌、社交应用支持用户个性化歌曲创作,提升用户互动与创作体验。

SongGeneration 2项目地址:

1、GitHub仓库:https://github.com/tencent-ailab/songgeneration

2、HuggingFace模型库:https://huggingface.co/tencent/SongGeneration

标签: