雅博体育app中国官网入口字节开源合股框架Bernini: AI视频剪辑先和会再入手

发布日期：2026-06-04 23:42 来源：未知作者：admin 浏览次数：

梦瑶发自凹非寺

民众皆懂，视频生成这件事，最让创作家头疼的，不一定是画面不够清亮。

而是模子不绝听不懂东说念主话！！！（扎心.jpg)

想把好天改成雪天，它可能只会往画面上撒雪花；想把一段动画植入市场LED大屏，它可能鸿沟乱飘、透视不稳。

于是乎，问题来了：AI视频生成，能弗成先和会创作家到底想改什么，再入手生成？

就在刚刚，字节交易化技能团队反手给出一个行业新解法——

开源面向视频生成与视频剪辑的合股框架：Bernini。

主打一个先和会再生成～

Bernini的想路很平直，让多模态大模子先平定语义和会与野心，再交给diffusion模子完成高质料视觉渲染。

在身手上，Bernini隐秘了参考生成、视频剪辑等多种任务，重点体现的等于两个字：「可控」。

比如改换举座视觉作风时，不仅仅把单帧画得好意思瞻念，还能稳住前后帧的一致性，主打一个效用超等稳：

这下好了，AI视频生成也能从听prompt干活，往先和会、再入手再进一步了～

对了，当今，Bernini的推理代码和权重照旧敞开！！（甘心.jpg)

一条指示改视频，Bernini松驰拿握「可控剪辑」！

要是说往常许多视频生成模子更像按辅导词出片，那Bernini想措置的，是另一个更实质的问题——

生成之后，如何不绝改？

咱们深广碰到的大大皆治疗需求听起来皆很easy，但对视频模子来说并不肤浅！！！

因为视频剪辑不是改一张图，而是在一段连气儿画面里，既要听懂指示，又要保住主体、结构、镜头和通顺关联。

稍稍处理不好，就会出现主体变形、布景漂移、动作断裂、帧间耀眼等问题。

而Bernini的中枢想路，恰是把这个过程拆得更清亮。

△AI生成

咱们不错把Bernini和会成一个AI视频片场里的「导演+后期团队」。

前边平定导演的，是一个叫MLLM-based planner的多模态大模子野心器。

它会先看懂你的文本指示，也会沿途和会源视频、参考图片、参考视频这些素材，判断谋划画面应该造成什么样。

等这一步想清亮后，再交给diffusion模子DiT-based renderer来完成视觉渲染，把前边野心好的语义谋划，确切造成连气儿、褂讪、高质料的视频画面。

是以Bernini框架的妙处，就在于单干宽裕清亮：

多模态大模子平定想显明，Diffusion Transformer稳更生成出来。

从文本到视频生成，到视频剪辑，再到基于图像和视频参考的复杂搁置生成皆全部梭哈！

△Bernini在合股框架内营救多种视频生成任务

这套微妙单干，也让Bernini在视频可控剪辑上，展现出了一批零碎直不雅的视频剪辑身手。

最基础的，是一条指示改换天气、季节、材质和作风的身手。

比如销亡段城市航拍视频，输入指示后，不错从好天切到雾天、雨天、雪天。

最舛错是，它处理的并不仅仅天上多几片雪、画面加一层滤镜，而是会连带治疗太空、光照、路面、树扬名义和举座环境氛围，让这场天气变化看起来像真的发生在原场景里：

更进一步，Bernini的语义剪辑照旧启动插足「镜头说话」。

最初等于能搁置画面矜恤区域的视角、焦点和动作。

在视角剪辑上，Bernini能进一步和会场景里的三维关联，让部分视角治疗收尾更顺应透视、结构和空间逻辑：

在焦点剪辑身手上，Bernini还大致把柄指示治疗画面的矜恤区域，让视频叙事重点随之改换。

比如一个画面里有多个物体，咱们不错让镜头更矜恤桌上的收音机，也不错让焦点从出路转到布景，so easy～

虽然，视频创作里最容易卡bug的，还有动作。（doge）

毕竟许多AI视频静止看还行，一动起来就清楚：主体变形、动作断裂、布景漂移，镜头也随着不稳！！

值得一提的是，Bernini在保留主体身份和场景结构的前提下，不错高精确度地改换主体动作行径。

咱们来看底下这段棕熊视频，哪怕从平凡现象改成起身舞蹈、怒吼，环境、光照和镜头关联依然能保持褂讪～

这就意味着，Bernini改视频不仅仅让主体「动起来」，还要让动作变化「当然嵌进」原来的画面里。

从反复抽卡到那边不合改那边，AI视频终于启动有点后期软件的味儿了？？？

参考素材上场，视频创作更可控、更一致

友友们深广作念AIGC内容创作时，还会遭受一个问题，那等于——

咱们真的很难用一句prompt，精确形容想要的视觉效用……

尤其是碰到具体材质、某个商品、某种电影颜色，或者一段需要植入到屏幕里的视频素材，就更容易翻车…..

好巧不巧， Bernini除了剪辑的舛错很强外，还有一个贼实用的身手：营救图片和视频算作剪辑参考。

不仅如斯，它还能基于参考输入平直生成新视频，把物体、脚色和场景的一致性问题狠狠拿握！！

不单靠prompt：用图片和视频算作剪辑参考

最初来看Bernini参考生成的第一个舛错——剪辑参考。

具体来说，Bernini不错让创作家平直用视觉样例搁置收尾，告白创意、电商展示、影视预演、二次创作友友狂喜！！

比如底下这个增多指定主体的案例，只需要放入一张狗狗参考图，视频里就能当然出现同款狗狗。

再输入一张雪东说念主图片，雪东说念主也能顺滑融进当前视频里，光照、透视、边际关联皆处理得相配当然：

除了参考主体，Bernini还能参考材质。

比如给它布料、朱砂壶、大理石、金属等不同材质参考，原视频里的盘子就不错被改成对应纹理视觉质感～

况且最迫切的是，这种材质变化会随着谋划物体褂讪存在，而不是播放几帧就漂移、错位或失真：

作风参考也不在话下！

哪怕参考图横跨卡通、写实、水墨、赛博一又克等完全不同的视觉作风，Bernini也能索要作风特征并转移到视频里。

值得一提的是，原视频里的主体和通顺关联也会高度保留，作风变化也会随着时间轴褂讪延续：

此外皮剪辑参考中，Bernini还有一类很实用的身手，那等于：图像与视频植入。

民众皆知说念，街头灯箱、市场LED大屏、地铁电视，致使镜头里任何一块屏幕，亚博(中国)体育app皆不错造成展示位。

而Bernini能作念的，等于把一张海报、一段视频精确填进谋划区域里，还能随着原片镜头沿途转移，作念到鸿沟不破、透视不乱、时序不抖。

举例给一段街头实拍再提供一张油绘制片，Bernini就能把油画当然贴进牌号里，画面和会度也相配强：

告白预览、影视预演、捏造拍摄里，许多正本要反复抠帧、追踪、校透视的责任，这下也能被收进了一次推理里了～

顺带提一嘴，除了剪辑已有视频，Bernini还营救基于参考图平直生成「新视频」。

咱们先来看民众深广需求比拟多的单图参考生成。

比如只给一张香水家具图，再输入「生成一段家具展示视频」的辅导词，模子就能生成真东说念主手持香水动掸的画面。

瓶身详细、金色液体、玄色标贴这些舛错细节，皆能和原图保持很高的一致性。

更格外旨真理的是，换成一条通顺头带，再让模子目田施展，它还能生成一只羊驼戴着头带站在沙漠的画面：

销亡个身手，既能作念正经家具片，也能搞脑洞创意短片，属实有点666了啊？？

再进一步，Bernini还能达成多元素组合参考生成。

在此我需要要大大点赞的极少是，咱们喂进去的参考图不一定需要来自销亡个物体！！！

比如一座大理石半身像、一副粉色猫耳耳机、一件的玄色T恤、一条热带印花短裤，再加一张落日海滩长椅。

几张图正本八竿子打不着，但Bernini却不错把它们组合成销亡个视频脚色：

（谁成想呢，NanoBanana那时大热的ootd玩法照旧进阶到「视频」版块了！）

这类身手放到IP联名、捏造东说念主塑造、告白想法片里就很灵验，素材库里正本散布的元素，不错被再行组合成一个全新的脚色和场景～

此外，Bernini还有一个更舛错的身手，那等于销亡物体的多角度参考。

民众皆知说念，商品和脚色很少惟有一面，包有背带，车有尾灯，雕琢有侧脸和后头，模子要是只看过正面，镜头一瞥，很容易启动目田施展。

而Bernini特殊就特殊在，它不错吃进销亡物体的多张角度参考图——

比如喂给它大理石雕琢的五张多角度参考，再让它生成一段连气儿镜头，雕琢从不同角度出当前，五官、肌肉走向、衣袍褶皱皆能保持高度一致：

临了想说的身手，是场景舛错帧到连气儿镜头。

给到销亡办公区休息廊的几张舛错帧，比如沙发、绿植、走廊至极的玻璃门，Bernini不错生成一段连气儿平移镜头：

说真话，这一步照旧启动接近更长线的宇宙模子身手了。

因为它锻真金不怕火的照旧不仅仅这一帧好不好意思瞻念，还包括模子能弗成和会销亡个场景在连气儿镜头里的空间关联。

捏造漫游、游戏关卡生成、影视预演，致使具身智能模拟，往后皆绕不开这种连气儿性。

从语义野心到视觉渲染，Bernini的舛错是「先和会，再生成」

是以问题来了，Bernini为什么能同期吃文本、视频、参考图，还能把收尾作念得更稳？

就像前边提到的，其中枢原因在于它莫得让一个模子包办整个事情，而是把任务拆成了两步。

第一步是「语义野心」，让模子先和会谋划。

具体来说，Bernini最初使用MLLM-based planner来和会文本、视频和参考视觉输入，并平直在ViT embedding space中预测谋划语义暗示。

这个谋划语义暗示，不错和会成生成前的一张「语义草图」。

它不屈直步调每个像素长什么样，而是先形容清亮：谋划视频应该包含什么内容、结构如何变、哪些元素要保留、哪些所在要被剪辑。

第二步是「视觉渲染」，把语义转移成高质料视频。

拿到语义野心后，DiT-based renderer会稳更生成最终画面，关于视频剪辑任务，它还会磋议源视频的VAE features，尽量保留原视频里的细节和非剪辑区域，幸免一改就把整段画面带跑。

还有一个舛错点，是「多参考输入」如何处理。

当多个参考图、源视频、谋划视频被串进销亡个序列里时，不同素材可能会出现疏通的时间和空间坐标，模子容易认混。

是以Bernini引入了Segment-Aware 3D Rotary Positional Embedding，也等于SA-3D RoPE。

它会给不同视觉片断加上各自的segment象征，让模子分清：哪个是参考图，哪个是源视频，哪个是谋划输出；同期还能保留时间和空间位置关联。

值得一提的是，在字节交易化技能团队自建的Arena收尾里，Bernini的位置也很有看头——

靠近几款国表里主流闭源模子，这个开源框架莫得被拉开差距，反良友经站进了第一梯队：

说到底，Bernini最让创作家有实感的所在，不仅仅画面更好意思瞻念，而是它让AIGC创作少了极少「哲学」。

以前咱们写了一大段prompt，AI巧合懂；想改一个小所在，它可能整条视频皆重来；给了参考图，它也可能只学到极少外相，临了主体、材质、作风实足跑偏。

而Bernini措置的，等于这种创作里的失控感。

它先和会用户想要什么，和会原视频里哪些内容要保留，也和会参考图片、参考视频到底提供了什么视觉信息。

Z6尊龙国际app2026世界杯中国官方下载

然后，再把这种和会转成不错生成、不错剪辑、不错褂讪落地的视频收尾。

少极少反复碰气运，多极少确切可控的创作空间，这亦然Bernini最有价值的所在——

让民众用我方的素材、我方的宗旨，去探索AI视频创作还能如何变得更好用、更听话、更接近真实创作经由。

对了，需要一提的是，当今率先开源的Bernini-R，对应Bernini三阶段锻练经由中的第二阶段模子。

而包含MLLM Planner的完好版块也在代码整理中，预测近期将进一步敞开，民众不错小小期待一下子！

（无论咋说，Bernini-R不错先狠狠安排上了～）

Bernini一箩筐参考连气儿：

[1]GitHub：https://github.com/bytedance/Bernini

[2]Hugging Face：https://huggingface.co/ByteDance/Bernini

[3]Project Page：https://bernini-ai.github.io雅博体育app中国官网入口

上一篇：上一篇：亚博(中国)体育app 4只ST股同日“摘星脱帽”, 部分公司功绩仍陷失掉困局

雅博体育

雅博体育app中国官网入口 字节开源合股框架Bernini: AI视频剪辑先和会再入手

雅博体育app中国官网入口字节开源合股框架Bernini: AI视频剪辑先和会再入手