Goku是由中国香港大学与字节跳动合作推出的一款AI视频生成模型,其核心特点在于基于rectified flow Transformer架构,专注于图像和视频的联合生成。Goku支持多种生成模式,包括文本到视频(文生视频)、图像到视频(图生视频)以及文本到图像(文生图)。这一模型在生成广告商品、吃播视频、产品展示等内容时表现出色,能够以极低的成本(比传统方法低100倍)创建高质量的广告视频。
1. 多模态生成能力:Goku支持从文本、图像到视频的多种生成方式,能够根据输入的文本或图片生成逼真的视频内容。例如,仅凭一张商品图和文字提示,即可生成带有交互讲解的商品广告视频。
2. 高效成本优势:Goku+作为其基础模型,能够以比传统方法低100倍的成本生成广告视频,显著降低了市场营销和广告制作的门槛。
3. 高质量输出:Goku在生成的商品广告、吃播视频和产品展示中,表现出了极高的逼真度,人物表情自然流畅,场景细节逼真,甚至难以与真实场景区分。
4. 校正流Transformer架构:Goku采用了校正流Transformer架构,使其在文本到图像和文本到视频生成任务中均取得了SOTA(State-of-the-Art)的记录,刷新了行业纪录。
5. 广泛适用性:Goku不仅适用于广告视频制作,还能用于吃播、产品展示等多种场景,满足不同行业的需求。
- 广告视频制作:通过简单的文本提示和商品图片,即可生成高质量的商品广告视频。
- 吃播视频制作:能够生成逼真的吃播视频,展示食物的质感和细节。
- 产品展示:利用图像和文字提示生成产品展示视频,提升营销效果。
1. 项目官网:https://saiyan-world.github.io/goku/
2. Github仓库:https://github.com/Saiyan-World/goku
3. HuggingFace模型库:https://huggingface.co/datasets/saiyan-world/Goku
4. arXiv技术论文:https://arxiv.org/pdf/2502.04896
标签:
二手交易AI内容检测电影下载电影资源文字工具国产AIAI开放平台AI制作PPT学习资源mac软件下载在线漫画办公生活AI大模型ai换脸AIGC