AI 视频越来越热,短剧、漫剧、品牌宣传片层出不穷,模型天马行空恰好是优势。但有一类视频不同,它需要精准还原技术概念,这对制作者的模型控制能力要求更高,这就是技术讲解视频。

三月初,我们制作的 3 支技术讲解视频,在巴塞罗那 MWC(世界移动通信大会)循环播放。

这 3 支视频对应 3 种模型训练技术,我们需要帮助某国内大模型厂商,在几十秒内让到场观众了解基本原理,而无需掌握太多技术知识。

3支视频选择的统一主视觉
3支视频选择的统一主视觉

如何将抽象的模型训练原理,变成任何人都能直觉感知的画面?现在复盘来看,这件事对我们的挑战有三:

  1. 理解技术
  2. 寻找可视化思路
  3. 让模型严格执行

我们先来第一步,对里面的基本概念有些大概了解。

一、术语小插曲

我们这次需要可视化的三个技术分别是:线性融合、球面插值融合、干扰消除融合。它们共属同一个范畴:模型融合。

模型融合是什么?训练一个大模型很贵,但有时候你想让它同时具备多种能力,比如一个擅长逻辑推理,另一个擅长创意写作。与其重新训练,不如把两个模型的参数「混合」在一起,各取所长。

三种技术的区别在于「怎么混」:

  • 线性融合:最直接的方式,按比例加权平均,就像用 50% 的 A 加 50% 的 B 调出一杯鸡尾酒。
  • 球面插值融合:线性融合容易让两边的特点都丢掉。球面插值不走直线,而是沿球面弧线,在保留各自特征的同时找到更平滑的中间路径,融合后的模型不会「两头不像」。
  • 干扰消除融合:更为复杂, 涉及不同融合情况,需在可视化时体现不同融合差异。

二、建立基本概念

我们不必了解所有技术细节,只需抓住每个技术最核心的特征,找到合适的视觉表达。

三个技术的视觉难度依次递增:线性融合最直接,可以想象为两个物体直接融合;球面插值需要引入球体元素;干扰消除融合最复杂,包含许多中间过渡状态,视觉步骤也最多。

但在这之前,先要解决一个更基础的问题:用什么元素代表「模型」本身。

模型虽然抽象,但它有结构,大量参数按照层次组织在一起。我们选择立方体:有明确的边界,可以被打开,可以进入内部。一个立方体代表一个完整的模型,内部填充的小单元代表参数结构。

蓝、黄分别代表融合前的两个模型(文中均为草图,下文同)
蓝、黄分别代表融合前的两个模型(文中均为草图,下文同)
绿色代表融合后的新模型
绿色代表融合后的新模型

颜色上,三色贯穿所有视频其中,动作上,每一次形态变化都对应一个确定的技术动作,这让每一个画面都能被还原成一句技术陈述。

三、统一运镜及三个过程实现

彼时 Seedance 2.0 还未发布,我们用谷歌 VEO 3.1 制作。

我们先用 Nano Banana Pro 根据思路草图生成关键帧,再导入 VEO 3.1 做首尾帧拼接,控制开头结尾,再用文字描述中间过程来生成视频,最后分别合并。

三支视频的运镜统一:从宏观进入微观,再从微观拉回宏观。比如宏观展示两个立方体开始融合;微观展示内部的融合过程;最后再拉回宏观,呈现融合后的新立方体。

运镜思路草图
运镜思路草图

三支视频的区别只在中间过程:线性融合最简单,只需一张中间关键帧,总时长 16s;球面插值和线性插值各需两张,时长均为 24s。

整体→内部核心提示词
整体→内部核心提示词

这个结构让观众跟着镜头走完一次「整体→内部→整体」的旅程,无需技术背景也能感受到:有什么东西进入了另一个东西,发生了变化,变成了新的东西。

下面说说 3 个中间过程的关键帧及视频思路。

1、线性融合

这是三支视频里最简单的一个。

线性融合的技术特点,是按比例加权平均,这意味着二者的融合一定有泾渭分明的视觉特点,从而保留两个模型各自的特点。

所以,我们的关键帧设计关键是「蓝黄分明」,最中间的小立方体一半蓝、一半黄,而非真正混合。其他小立方体则有的黄、有的蓝、有的开始混合。

视觉上没有任何偏向,呼应「加权平均」这个概念本身。

蓝黄分明的融合过程
蓝黄分明的融合过程

提示词上,定好关键帧后,告诉模型这是一个从外部进入内部的过程即可。

融合过程的核心提示词
融合过程的核心提示词

2、球面插值融合

球面插值,我们选取球体作为内部融合的主要视觉元素。我们设置了 2 个中间关键帧。

中间帧越多,叙事拆分越细,模型越容易稳定执行,但每增加一帧视频就要变长,所以能少则少。

我们引入第二帧的原因是:VEO 3.1 很难一次生成复杂连贯的视频,任务一旦变复合,画面就容易失控:比如形态不稳定,运动不合理等。

我们的思路是:两个球体在立方体内部保持各自形态共存,随后合并生成新形态。

融合过程
融合过程

提示词上我们刻意压制炫酷效果,避免合并时出现颜色跳跃、闪烁等。

融合过程核心提示词
融合过程核心提示词

3、干扰消除融合

干扰消除融合的特殊之处在于,融合并非两个单独个体之间进行,而是两组圆柱体。合并规则是:取蓝黄两方中高度更突出的一方;若双方高度增量都不明显,则只保留黑色基座;若都明显,则融合为绿色。

左边黄色高度不明显,取蓝色;中间双方均不明显,只留黑色基座;右侧双方均明显,融合为绿色
左边黄色高度不明显,取蓝色;中间双方均不明显,只留黑色基座;右侧双方均明显,融合为绿色

我们在视频生成过程中发现:圆柱体高度来回跳变甚至凭空生成新圆柱体,这就无法体现两个模型的固有属性。

多次尝试后,我们判断问题出在数量、颜色等元素相比前面视频两个要更多、更复杂,模型理解这个过程较为困难,我们放弃提示词描述精度,转向引入摄像机语言:把提示词的关注点从物体的运动变化,转移到摄像机的动作。

模型最擅长的从来不是控制物体,它理解世界的方式本身就是通过视频,而镜头就是视频的语言。用镜头语言描述,它就能变成一个诚实的记录者,减少猜测我们意图的空间。

摄像机镜头核心提示词
摄像机镜头核心提示词

而在后续合并过程中,再次频繁出现无效元素。

合并过程
合并过程

我们直接将负面约束写入提示词。

负面约束提示词
负面约束提示词

4、结尾

三支视频的结尾大同小异:内部融合完毕后,从微观视角拉回宏观,呈现新的立方体。

我们延续上文干扰消除融合举例:

融合完毕,拉回到宏观
融合完毕,拉回到宏观

这也是所有片段里最难控制的部分,多次生成都难以达到满意效果。我们同样使用摄像机语言,并加入关键约束来解决。

加入关键约束
加入关键约束

四、一些思考

回到开头提到的三个挑战:理解技术、寻找可视化思路、让模型严格执行。

三个挑战的难度并不对等。理解技术是学习,大模型时代比以前容易得多。寻找可视化思路也不难,真正理解了概念,视觉形式往往自然就来了。技术讲解主要考验的是理解力,不是创造力。

真正难的是落地。图片和视频没法局部摘取,有一处不满意就要整体重来。迭代的繁琐程度,取决于你对工具边界的理解:清楚哪些事该人来做,哪些事该交给模型。

多次尝试都无法解决时,关键是顺着模型的思路去想,比如切换到摄像机语言、引入负面约束、修改关键帧等。

但更根本的是,要和模型处于合作关系,而非派活关系。如果能快速站在它的角度想清楚它为什么完成不了,再给一个它能完成的方式,试错成本就可以大幅降低。

0
0