AI工作站

Goku：香港大学与字节跳动合作推出的一款AI视频生成模型

Goku是由中国香港大学与字节跳动合作推出的一款AI 视频生成模型，其核心特点在于基于rectified flow Transformer架构，专注于图像和视频的联合生成。Goku支持多种生成模式，包括文本到视频（文生视频）、图像到视频（图生视频）以及文本到图像（文生图）。这一模型在生成广告商品、吃播视频、产品展示等内容时表现出色，能够以极低的成本（比传统方法低100倍）创建高质量的广告视频。

Goku：香港大学与字节跳动合作推出的一款AI视频生成模型

Goku主要功能特点：

1. 多模态生成能力：Goku支持从文本、图像到视频的多种生成方式，能够根据输入的文本或图片生成逼真的视频内容。例如，仅凭一张商品图和文字提示，即可生成带有交互讲解的商品广告视频。

2. 高效成本优势：Goku+作为其基础模型，能够以比传统方法低100倍的成本生成广告视频，显著降低了市场营销和广告制作的门槛。

3. 高质量输出：Goku在生成的商品广告、吃播视频和产品展示中，表现出了极高的逼真度，人物表情自然流畅，场景细节逼真，甚至难以与真实场景区分。

4. 校正流Transformer架构：Goku采用了校正流Transformer架构，使其在文本到图像和文本到视频生成任务中均取得了SOTA（State-of-the-Art）的记录，刷新了行业纪录。

5. 广泛适用性：Goku不仅适用于广告视频制作，还能用于吃播、产品展示等多种场景，满足不同行业的需求。

Goku应用场景：

- 广告视频制作：通过简单的文本提示和商品图片，即可生成高质量的商品广告视频。

- 吃播视频制作：能够生成逼真的吃播视频，展示食物的质感和细节。

- 产品展示：利用图像和文字提示生成产品展示视频，提升营销效果。

Goku项目地址：

1. 项目官网：https://saiyan-world.github.io/goku/

2. Github仓库：https://github.com/Saiyan-World/goku

3. HuggingFace模型库：https://huggingface.co/datasets/saiyan-world/Goku

4. arXiv技术论文：https://arxiv.org/pdf/2502.04896

标签：