
Bernini为字节跳动开源一体化视频生成编辑框架,采用MLLM语义规划+DiT视觉渲染两段解耦架构:多模态大模型解析指令、输出语义布局,Diffusion Transformer负责高清画面渲染;原生打通文生视频、图生视频、精细化视频编辑、多素材融合等能力,项目推理源码与模型权重全部开源。

1、图文生视频:
依托文本描述、单图/多素材拼接图/多视角参考图,一键生成成片。
2、精细化视频编辑:
按需修改场景环境、拍摄视角、画面焦点、角色动作四大维度内容。
3、多参考定向引导:
凭借主体、材质、风格三类参考图,精准把物体形态、纹理、画风落地至目标视频。
4、画面素材植入:
海报、短片素材可嵌入画面屏幕、广告牌等区域,跟随镜头同步变换透视,时序无畸变。
5、多元素融合创作:
多张独立参考图拼接生成同一角色,依托场景关键帧自动生成连贯运镜画面。
1、语义与生成分层:
大模型理解需求、DiT落地画面,改善传统生成模型指令理解偏差问题;
2、任务大一统:
单套架构统一实现生成、剪辑、参考图驱动等全场景,不用更换模型;
3、多素材兼容:
文本、图片、视频混合输入,SA-3D RoPE规避多源素材时空错乱;
4、局部编辑可控:
编辑复用原视频特征,仅修改目标区域,不破坏原有画面细节;
5、全开源落地:
代码、权重完整开源,降低学术研究与商用二次开发成本;
6、泛化性能优异:
对训练集未覆盖的动作调整、因果类创意指令同样具备优秀生成效果。
1、GitHub拉取项目源码至本地;
2、执行pip安装项目依赖清单;
3、从HuggingFace获取Bernini-R-Diffusers权重文件;
4、运行环境:Python3.11.2、CUDA12.4及以上,优选Hopper架构显卡;
5、torchrun启动多卡推理,载入配置与测试样本;
6、选配兼容OpenAI协议的API接口,优化提示词生成效果。
【Bernini】浏览人数已经达到 次,如你需要查询该站的相关权重信息,建议直接到 5118、爱站 或 Chinaz 搜索域名「bernini-ai.github.io」查看最新权重、收录与关键词排名;若需精确的 IP、PV、跳出率等核心指标,仍需与站长沟通获取后台数据。总体判断时,可把访问速度、索引量、用户停留体验等因素一起纳入考量,并结合自身需求再做决策。
1、微信/QQ内打不开:
把链接复制到系统浏览器再访问,微信/QQ内置页常自动拦截第三方站。
2、浏览器报“违规”:
部分国产浏览器的误拦截,换用系统原生浏览器即可:iPhone→Safari,安卓→Edge、Alook、X、Via 等轻量浏览器,均不会误屏蔽。
3、网络加载慢或空白:
先切换 4G/5G 与 Wi-Fi 对比;可以尝试使用网络加速器,将网络切换至更稳定的运营商。另外,部分网站可能需要科学上网才能访问,如 Google、Hugging Face 等一些国外服务器的网站(不推荐)。
本站AI工具导航站提供的「Bernini」的相关内容都来源于网络,不保证外部链接的准确性和完整性。在2026年06月04日 06时15分30秒收录时,该网站上的内容都属于合规合法,后期网站的内容如出现违规,可以直接联系网站管理员(ai@ipkd.cn)进行删除,AI工具导航站不承担任何责任。在浏览网页时,请注意您的账号和财产安全,切勿轻信网上广告!