AI工作站

SyncAnimation:南方科技大学等机构推出的端到端音频驱动框架

AI行业资讯 2025-02-03 12:49:46 

SyncAnimation是由南方科技大学等机构推出的一种实时端到端的音频驱动框架,用于生成与音频同步的人体姿态和说话头像动画。该框架基于NeRF(神经辐射场)技术,结合音频到姿态和表情的同步模块,能够通过音频信号实时生成高精度、高同步性的上半身姿态和面部表情,包括嘴唇动作。

SyncAnimation:南方科技大学等机构推出的端到端音频驱动框架

SyncAnimation功能特点:

1、音频驱动的实时渲染:通过音频信号实时生成说话头像和上半身姿态,支持“一镜到底”(单次推理,使用一张参考图像)和“零镜到底”(零次推理,完全不依赖参考图像)两种推理方式。

2、高精度姿态与表情生成

AudioPose Syncer:将音频信号映射到动态头部姿态,生成与音频同步的头部姿态偏移量。

AudioEmotion Syncer:通过音频特征驱动面部表情变化,包括眉毛动作、眨眼等细节,实现自然的情感表达。

3、无缝融合与同步渲染:High-Synchronization Human Renderer模块确保头部和上半身动作的无缝融合,实现音频同步的嘴唇动作,无需后期处理。

4、保持身份信息与细节:在静音期间,能够保持面部表情和上半身动作的一致性,同时保留人物的身份信息和面部细节。

5、高实时性能:在NVIDIA RTX 4090 GPU上,推理速度可达41 FPS,是首个能实时生成音频同步上半身运动和头部动作的方法。

SyncAnimation应用场景:

1、虚拟主播与直播:适用于新闻播报、直播教学等场景,能够实时生成与音频高度同步的虚拟人物动画。

2、视频会议与远程协作:在网络带宽受限的情况下,通过音频驱动生成逼真的虚拟人物头像,保持高质量的视觉效果。

3、动画制作与影视特效:可用于动画制作和影视特效中的人物动画生成,提高制作效率,实现更加自然的动态效果。

4、游戏开发:生成实时的NPC动画,使角色的动作和表情更加生动,提升游戏的沉浸感。

5、智能客服虚拟助手:生成虚拟客服或助手的动画形象,在与用户互动时表现出更加自然的表情和姿态。

SyncAnimation项目网址:

1、项目官网https://syncanimation.github.io/

2、GitHub仓库https://github.com/syncanimation

3、arXiv技术论文https://arxiv.org/pdf/2501.14646

标签: