雅博体育

雅博体育

雅博体育app中国官网入口 字节开源合股框架Bernini: AI视频剪辑先和会再入手

发布日期:2026-06-04 23:42 来源:未知 作者:admin 浏览次数:

雅博体育app中国官网入口 字节开源合股框架Bernini: AI视频剪辑先和会再入手

梦瑶 发自 凹非寺

民众皆懂,视频生成这件事,最让创作家头疼的,不一定是画面不够清亮。

而是模子不绝听不懂东说念主话!!!(扎心.jpg)

想把好天改成雪天,它可能只会往画面上撒雪花;想把一段动画植入市场LED大屏,它可能鸿沟乱飘、透视不稳。

于是乎,问题来了:AI视频生成,能弗成先和会创作家到底想改什么,再入手生成?

就在刚刚,字节交易化技能团队反手给出一个行业新解法——

开源面向视频生成与视频剪辑的合股框架:Bernini。

主打一个先和会再生成~

Bernini的想路很平直,让多模态大模子先平定语义和会与野心,再交给diffusion模子完成高质料视觉渲染。

在身手上,Bernini隐秘了参考生成、视频剪辑等多种任务,重点体现的等于两个字:「可控」。

比如改换举座视觉作风时,不仅仅把单帧画得好意思瞻念,还能稳住前后帧的一致性,主打一个效用超等稳:

这下好了,AI视频生成也能从听prompt干活,往先和会、再入手再进一步了~

对了,当今,Bernini的推理代码和权重照旧敞开!!(甘心.jpg)

一条指示改视频,Bernini松驰拿握「可控剪辑」!

要是说往常许多视频生成模子更像按辅导词出片,那Bernini想措置的,是另一个更实质的问题——

生成之后,如何不绝改?

咱们深广碰到的大大皆治疗需求听起来皆很easy,但对视频模子来说并不肤浅!!!

因为视频剪辑不是改一张图,而是在一段连气儿画面里,既要听懂指示,又要保住主体、结构、镜头和通顺关联。

稍稍处理不好,就会出现主体变形、布景漂移、动作断裂、帧间耀眼等问题。

而Bernini的中枢想路,恰是把这个过程拆得更清亮。

△AI生成

咱们不错把Bernini和会成一个AI视频片场里的「导演+后期团队」。

前边平定导演的,是一个叫MLLM-based planner的多模态大模子野心器。

它会先看懂你的文本指示,也会沿途和会源视频、参考图片、参考视频这些素材,判断谋划画面应该造成什么样。

等这一步想清亮后,再交给diffusion模子DiT-based renderer来完成视觉渲染,把前边野心好的语义谋划,确切造成连气儿、褂讪、高质料的视频画面。

是以Bernini框架的妙处,就在于单干宽裕清亮:

多模态大模子平定想显明,Diffusion Transformer稳更生成出来。

从文本到视频生成,到视频剪辑,再到基于图像和视频参考的复杂搁置生成皆全部梭哈!

△Bernini在合股框架内营救多种视频生成任务

这套微妙单干,也让Bernini在视频可控剪辑上,展现出了一批零碎直不雅的视频剪辑身手。

最基础的,是一条指示改换天气、季节、材质和作风的身手。

比如销亡段城市航拍视频,输入指示后,不错从好天切到雾天、雨天、雪天。

最舛错是,它处理的并不仅仅天上多几片雪、画面加一层滤镜,而是会连带治疗太空、光照、路面、树扬名义和举座环境氛围,让这场天气变化看起来像真的发生在原场景里:

更进一步,Bernini的语义剪辑照旧启动插足「镜头说话」。

最初等于能搁置画面矜恤区域的视角、焦点和动作。

在视角剪辑上,Bernini能进一步和会场景里的三维关联,让部分视角治疗收尾更顺应透视、结构和空间逻辑:

在焦点剪辑身手上,Bernini还大致把柄指示治疗画面的矜恤区域,让视频叙事重点随之改换。

比如一个画面里有多个物体,咱们不错让镜头更矜恤桌上的收音机,也不错让焦点从出路转到布景,so easy~

虽然,视频创作里最容易卡bug的,还有动作。(doge)

毕竟许多AI视频静止看还行,一动起来就清楚:主体变形、动作断裂、布景漂移,镜头也随着不稳!!

值得一提的是,Bernini在保留主体身份和场景结构的前提下,不错高精确度地改换主体动作行径。

咱们来看底下这段棕熊视频,哪怕从平凡现象改成起身舞蹈、怒吼,环境、光照和镜头关联依然能保持褂讪~

这就意味着,Bernini改视频不仅仅让主体「动起来」,还要让动作变化「当然嵌进」原来的画面里。

从反复抽卡到那边不合改那边,AI视频终于启动有点后期软件的味儿了???

参考素材上场,视频创作更可控、更一致

友友们深广作念AIGC内容创作时,还会遭受一个问题,那等于——

咱们真的很难用一句prompt,精确形容想要的视觉效用……

尤其是碰到具体材质、某个商品、某种电影颜色,或者一段需要植入到屏幕里的视频素材,就更容易翻车…..

好巧不巧, Bernini除了剪辑的舛错很强外,还有一个贼实用的身手:营救图片和视频算作剪辑参考。

不仅如斯,它还能基于参考输入平直生成新视频,把物体、脚色和场景的一致性问题狠狠拿握!!

不单靠prompt:用图片和视频算作剪辑参考

最初来看Bernini参考生成的第一个舛错——剪辑参考。

具体来说,Bernini不错让创作家平直用视觉样例搁置收尾,告白创意、电商展示、影视预演、二次创作友友狂喜!!

比如底下这个增多指定主体的案例,只需要放入一张狗狗参考图,视频里就能当然出现同款狗狗。

再输入一张雪东说念主图片,雪东说念主也能顺滑融进当前视频里,光照、透视、边际关联皆处理得相配当然:

除了参考主体,Bernini还能参考材质。

比如给它布料、朱砂壶、大理石、金属等不同材质参考,原视频里的盘子就不错被改成对应纹理视觉质感~

况且最迫切的是,这种材质变化会随着谋划物体褂讪存在,而不是播放几帧就漂移、错位或失真:

作风参考也不在话下!

哪怕参考图横跨卡通、写实、水墨、赛博一又克等完全不同的视觉作风,Bernini也能索要作风特征并转移到视频里。

值得一提的是,原视频里的主体和通顺关联也会高度保留,作风变化也会随着时间轴褂讪延续:

此外皮剪辑参考中,Bernini还有一类很实用的身手,那等于:图像与视频植入。

民众皆知说念,街头灯箱、市场LED大屏、地铁电视,致使镜头里任何一块屏幕,亚博(中国)体育app皆不错造成展示位。

而Bernini能作念的,等于把一张海报、一段视频精确填进谋划区域里,还能随着原片镜头沿途转移,作念到鸿沟不破、透视不乱、时序不抖。

举例给一段街头实拍再提供一张油绘制片,Bernini就能把油画当然贴进牌号里,画面和会度也相配强:

告白预览、影视预演、捏造拍摄里,许多正本要反复抠帧、追踪、校透视的责任,这下也能被收进了一次推理里了~

顺带提一嘴,除了剪辑已有视频,Bernini还营救基于参考图平直生成「新视频」。

咱们先来看民众深广需求比拟多的单图参考生成。

比如只给一张香水家具图,再输入「生成一段家具展示视频」的辅导词,模子就能生成真东说念主手持香水动掸的画面。

瓶身详细、金色液体、玄色标贴这些舛错细节,皆能和原图保持很高的一致性。

更格外旨真理的是,换成一条通顺头带,再让模子目田施展,它还能生成一只羊驼戴着头带站在沙漠的画面:

销亡个身手,既能作念正经家具片,也能搞脑洞创意短片,属实有点666了啊??

再进一步,Bernini还能达成多元素组合参考生成。

在此我需要要大大点赞的极少是,咱们喂进去的参考图不一定需要来自销亡个物体!!!

比如一座大理石半身像、一副粉色猫耳耳机、一件的玄色T恤、一条热带印花短裤,再加一张落日海滩长椅。

几张图正本八竿子打不着,但Bernini却不错把它们组合成销亡个视频脚色:

(谁成想呢,NanoBanana那时大热的ootd玩法照旧进阶到「视频」版块了!)

这类身手放到IP联名、捏造东说念主塑造、告白想法片里就很灵验,素材库里正本散布的元素,不错被再行组合成一个全新的脚色和场景~

此外,Bernini还有一个更舛错的身手,那等于销亡物体的多角度参考。

民众皆知说念,商品和脚色很少惟有一面,包有背带,车有尾灯,雕琢有侧脸和后头,模子要是只看过正面,镜头一瞥,很容易启动目田施展。

而Bernini特殊就特殊在,它不错吃进销亡物体的多张角度参考图——

比如喂给它大理石雕琢的五张多角度参考,再让它生成一段连气儿镜头,雕琢从不同角度出当前,五官、肌肉走向、衣袍褶皱皆能保持高度一致:

临了想说的身手,是场景舛错帧到连气儿镜头。

给到销亡办公区休息廊的几张舛错帧,比如沙发、绿植、走廊至极的玻璃门,Bernini不错生成一段连气儿平移镜头:

说真话,这一步照旧启动接近更长线的宇宙模子身手了。

因为它锻真金不怕火的照旧不仅仅这一帧好不好意思瞻念,还包括模子能弗成和会销亡个场景在连气儿镜头里的空间关联。

捏造漫游、游戏关卡生成、影视预演,致使具身智能模拟,往后皆绕不开这种连气儿性。

从语义野心到视觉渲染,Bernini的舛错是「先和会,再生成」

是以问题来了,Bernini为什么能同期吃文本、视频、参考图,还能把收尾作念得更稳?

就像前边提到的,其中枢原因在于它莫得让一个模子包办整个事情,而是把任务拆成了两步。

第一步是「语义野心」,让模子先和会谋划。

具体来说,Bernini最初使用MLLM-based planner来和会文本、视频和参考视觉输入,并平直在ViT embedding space中预测谋划语义暗示。

这个谋划语义暗示,不错和会成生成前的一张「语义草图」。

它不屈直步调每个像素长什么样,而是先形容清亮:谋划视频应该包含什么内容、结构如何变、哪些元素要保留、哪些所在要被剪辑。

第二步是「视觉渲染」,把语义转移成高质料视频。

拿到语义野心后,DiT-based renderer会稳更生成最终画面,关于视频剪辑任务,它还会磋议源视频的VAE features,尽量保留原视频里的细节和非剪辑区域,幸免一改就把整段画面带跑。

还有一个舛错点,是「多参考输入」如何处理。

当多个参考图、源视频、谋划视频被串进销亡个序列里时,不同素材可能会出现疏通的时间和空间坐标,模子容易认混。

是以Bernini引入了Segment-Aware 3D Rotary Positional Embedding,也等于SA-3D RoPE。

它会给不同视觉片断加上各自的segment象征,让模子分清:哪个是参考图,哪个是源视频,哪个是谋划输出;同期还能保留时间和空间位置关联。

值得一提的是,在字节交易化技能团队自建的Arena收尾里,Bernini的位置也很有看头——

靠近几款国表里主流闭源模子,这个开源框架莫得被拉开差距,反良友经站进了第一梯队:

说到底,Bernini最让创作家有实感的所在,不仅仅画面更好意思瞻念,而是它让AIGC创作少了极少「哲学」。

以前咱们写了一大段prompt,AI巧合懂;想改一个小所在,它可能整条视频皆重来;给了参考图,它也可能只学到极少外相,临了主体、材质、作风实足跑偏。

而Bernini措置的,等于这种创作里的失控感。

它先和会用户想要什么,和会原视频里哪些内容要保留,也和会参考图片、参考视频到底提供了什么视觉信息。

Z6尊龙国际app2026世界杯中国官方下载

然后,再把这种和会转成不错生成、不错剪辑、不错褂讪落地的视频收尾。

少极少反复碰气运,多极少确切可控的创作空间,这亦然Bernini最有价值的所在——

让民众用我方的素材、我方的宗旨,去探索AI视频创作还能如何变得更好用、更听话、更接近真实创作经由。

对了,需要一提的是,当今率先开源的Bernini-R,对应Bernini三阶段锻练经由中的第二阶段模子。

而包含MLLM Planner的完好版块也在代码整理中,预测近期将进一步敞开,民众不错小小期待一下子!

(无论咋说,Bernini-R不错先狠狠安排上了~)

Bernini一箩筐参考连气儿:

[1]GitHub:https://github.com/bytedance/Bernini

[2]Hugging Face:https://huggingface.co/ByteDance/Bernini

[3]Project Page:https://bernini-ai.github.io雅博体育app中国官网入口