AI工作站

SongGeneration 2音乐生成模型，腾讯×清华开源·4B参数音乐生成大模型

SongGeneration 2是腾讯与清华大学联合开源的4B参数多模态音乐生成大模型，采用混合LLM‑扩散架构与分层表征设计，实现商业级音乐生成质量。其核心优势在于歌词发音准确率达8.55%PER，全面超越Suno v5等主流商业模型。模型支持多语种、复杂多轨编曲，可通过文本与音频提示精准控制风格，且能在22GB显存的消费级硬件上本地运行，1分钟内生成完整歌曲，是一款高性能、亲民化的音乐创作工具。

SongGeneration 2音乐生成模型，腾讯×清华开源·4B参数音乐生成大模型

SongGeneration 2核心功能：

1、商业级高质量歌曲生成：

基于混合LLM‑扩散架构，可生成长达4分30秒、旋律优美、编曲层次丰富的完整歌曲，媲美专业录音棚制作水平。

2、多语种高精度歌词合成：

支持中、英、西、日等多语种歌词生成，以8.55%的极低音素错误率实现清晰、标准、自然的发音效果，远超同类产品。

3、多样化输出模式：

灵活生成完整歌曲、纯音乐、纯人声，或分离为人声+伴奏双音轨，满足不同创作场景与后期处理需求。

4、精准风格与内容控制：

支持通过文本描述（曲风、情绪、乐器、速度）或10秒音频提示，精确控制生成音乐的风格、旋律与编曲，实现高度定制化。

5、灵活部署与本地运行：

支持在22GB显存消费级硬件上本地部署，也可在HuggingFace Space在线快速体验；同时提供低显存适配方案，降低使用门槛。

SongGeneration 2技术原理：

1、混合LLM‑扩散架构（核心突破）：

- LeLM（语言模型）：作为“作曲大脑”，负责统筹全局音乐结构、旋律走向与演奏细节，把握音乐性与逻辑性。

- 扩散模型：作为“高保真渲染器”，在语言模型指导下合成复杂声学细节，确保音质饱满、细节丰富。

二者协同，实现音乐性与音质的完美平衡。

2、分层表征建模（分层设计）：

- 混合表征（Mixed Tokens）：并行捕捉高层级的旋律、节奏、结构等宏观语义。

- 多轨表征（Dual‑Track Tokens）：细粒度分别建模人声与伴奏轨道的声学变化，实现多轨分离与精细控制。

3、自动化美学评估（音乐性先验）：

基于11,717个专家标注样本构建细粒度评估框架，为训练注入专业音乐美学知识；推理阶段引入音乐性标签CFG策略，确保生成内容的艺术性与合理性。

4、三阶段渐进式后训练（极致优化）：

- SFT（监督微调）：收窄数据分布，构建高质量生成底座。

- 大规模离线DPO：利用20万对严格正负样本，精准消除歌词“幻觉”，提升内容准确性。

- 半在线DPO：周期性更新模型，持续突破音乐性与生成质量的上限。

SongGeneration 2应用场景：

1、音乐创作与制作：

独立音乐人、制作人可快速生成Demo验证创意，大幅降低编曲成本与制作周期，实现灵感的快速落地。

2、视频与自媒体配乐：

自媒体、短视频创作者可根据视频风格与情绪，即时生成定制化背景音乐，提升内容音频质感。

3、游戏音频开发：

游戏厂商可批量为不同场景、角色、剧情生成适配的主题音乐与音效，丰富游戏沉浸感。

4、广告与品牌营销：

品牌方可按活动Campaign调性生成专属jingle与音频广告，实现品牌音频资产的快速迭代与个性化。

5、教育与娱乐场景：

音乐教学平台提供风格化伴奏生成，辅助教学；K歌、社交应用支持用户个性化歌曲创作，提升用户互动与创作体验。

SongGeneration 2项目地址：

1、GitHub 仓库：https://github.com/tencent-ailab/songgeneration

2、HuggingFace模型库：https://huggingface.co/tencent/SongGeneration

标签：