OmniWeaving是由浙江大学、腾讯混元、南洋理工大学联合推出的统一视频生成框架,突破传统开源模型单一任务局限,实现多模态自由组合与推理增强生成,可对交错图文视频进行时序绑定,输出连贯内容,更以“智能导演”模式主动理解复杂创作意图。
框架采用MLLM语义理解、MMDiT生成、VAE编码三大核心组件架构,同步推出IntelligentVBench评估基准,在开源统一视频模型中实现SoTA性能,为缩小开源与商业视频生成技术差距提供重要开源方案。

1、统一多模态生成:
单框架无缝融合文本、多图、视频输入,支持交错式自由组合,覆盖多样化视频生成任务,摆脱传统单一任务模型的碎片化问题。
2、时序绑定生成:
对跨模态内容进行时序对齐与绑定,生成逻辑连贯、过渡自然的动态视频。
3、推理增强创作:
依托MLLM“思考模式”主动推断模糊与复杂意图,像专业导演自主规划镜头与叙事,从被动渲染升级为主动创作。
4、高级语义理解:
通过多模态大模型将自由输入映射至高级语义空间,结合扩散Transformer生成精细可控的视频内容。
5、端到端视频生成:
实现从语义理解到视频输出一体化流程,支持角色一致性、风格迁移等复杂需求,在IntelligentVBench上达到开源模型顶尖水平。

1、统一全能:
单框架支持文生视频、图生视频、多图组合、视频编辑等六大类任务,替代多专用模型组合,实现全流程统一生成。
2、自由组合:
突破固定输入格式限制,支持1–4张图像、视频片段与文本交错输入,通过时序绑定理解时空关系,实现深度融合而非简单拼接。
3、推理增强:
开启MLLM思考模式后,模型从指令执行器升级为“智能导演”,自动补全镜头与叙事,大幅降低提示词工程难度。
4、深度语义注入:
采用DeepStacking机制提取MLLM多粒度语义特征并注入生成网络,兼顾像素级细节与高层语义对齐,缓解多主体生成细节丢失问题。
1、环境准备:
从GitHub克隆仓库,安装`requirements.txt`依赖,可选安装Flash Attention / SageAttention加速推理。
2、模型下载:
在HuggingFace下载腾讯混元HY-OmniWeaving模型权重至本地指定目录。
3、文生视频(t2v):
输入文本描述、设置画幅与输出路径,可开启思考模式,让模型先推理意图再生成。
4、图生视频(i2v):
传入首帧图片与动作描述,由静态图像生成动态视频。
5、首尾帧插值(interpolation):
输入起止帧与过渡文本,自动补全中间画面,生成流畅过渡视频。
6、多图组合生成(reference2v):
上传1–4张参考图(人物、场景、道具等),配合文本实现多元素融合视频创作。
7、视频编辑(editing):
上传原视频并输入编辑指令(风格转换、物体替换等),完成智能修改。
8、图文视频联合编辑(tiv2v):
同时输入视频与参考图,将参考视觉元素融合进动态场景。

1、项目官网:https://omniweaving.github.io/
2、GitHub仓库:https://github.com/Tencent-Hunyuan/OmniWeaving
3、HuggingFace模型库:https://huggingface.co/tencent/HY-OmniWeaving
4、arXiv技术论文:https://arxiv.org/pdf/2603.24458
1、影视广告创意:
文本快速生成分镜预演视频,自由组合角色、场景、道具参考图生成完整广告片。
2、电商动态展示:
产品白底图+场景图自动生成使用场景视频,结合用户照片实现虚拟试穿等个性化效果。
3、社媒内容创作:
静态照片转为动态视频,让老照片“动起来”;基于首尾帧插值快速制作循环动画与表情包。
4、游戏动画资产:
角色设计图+动作描述直接生成动画片段,关键帧自动补全中间画,加速过场与场景切换制作。
标签:


AI辅助工具pdf转换ppt模板短剧资源AI金融事务创意设计办公软件批量处理二次元漫画AI头像绘制AI搜索引擎办公生活SQL语句平台培训AI法律服务