2026年03月10日 7 分钟阅读

巴塞罗那循环播放，我们如何帮AI厂商做技术视频？

关注身边的言辞现象，语言学公众号“言辞之间”。

7 分钟阅读

AI 视频越来越热，短剧、漫剧、品牌宣传片层出不穷，模型天马行空恰好是优势。但有一类视频不同，它需要精准还原技术概念，这对制作者的模型控制能力要求更高，这就是技术讲解视频。

三月初，我们制作的 3 支技术讲解视频，在巴塞罗那 MWC（世界移动通信大会）循环播放。

这 3 支视频对应 3 种模型训练技术，我们需要帮助某国内大模型厂商，在几十秒内让到场观众了解基本原理，而无需掌握太多技术知识。

3支视频选择的统一主视觉

如何将抽象的模型训练原理，变成任何人都能直觉感知的画面？现在复盘来看，这件事对我们的挑战有三：

理解技术
寻找可视化思路
让模型严格执行

我们先来第一步，对里面的基本概念有些大概了解。

一、术语小插曲

我们这次需要可视化的三个技术分别是：线性融合、球面插值融合、干扰消除融合。它们共属同一个范畴：模型融合。

模型融合是什么？训练一个大模型很贵，但有时候你想让它同时具备多种能力，比如一个擅长逻辑推理，另一个擅长创意写作。与其重新训练，不如把两个模型的参数「混合」在一起，各取所长。

三种技术的区别在于「怎么混」：

线性融合：最直接的方式，按比例加权平均，就像用 50% 的 A 加 50% 的 B 调出一杯鸡尾酒。
球面插值融合：线性融合容易让两边的特点都丢掉。球面插值不走直线，而是沿球面弧线，在保留各自特征的同时找到更平滑的中间路径，融合后的模型不会「两头不像」。
干扰消除融合：更为复杂，涉及不同融合情况，需在可视化时体现不同融合差异。

二、建立基本概念

我们不必了解所有技术细节，只需抓住每个技术最核心的特征，找到合适的视觉表达。

三个技术的视觉难度依次递增：线性融合最直接，可以想象为两个物体直接融合；球面插值需要引入球体元素；干扰消除融合最复杂，包含许多中间过渡状态，视觉步骤也最多。

但在这之前，先要解决一个更基础的问题：用什么元素代表「模型」本身。

模型虽然抽象，但它有结构，大量参数按照层次组织在一起。我们选择立方体：有明确的边界，可以被打开，可以进入内部。一个立方体代表一个完整的模型，内部填充的小单元代表参数结构。

蓝、黄分别代表融合前的两个模型（文中均为草图，下文同）

绿色代表融合后的新模型

颜色上，三色贯穿所有视频其中，动作上，每一次形态变化都对应一个确定的技术动作，这让每一个画面都能被还原成一句技术陈述。

三、统一运镜及三个过程实现

彼时 Seedance 2.0 还未发布，我们用谷歌 VEO 3.1 制作。

我们先用 Nano Banana Pro 根据思路草图生成关键帧，再导入 VEO 3.1 做首尾帧拼接，控制开头结尾，再用文字描述中间过程来生成视频，最后分别合并。

三支视频的运镜统一：从宏观进入微观，再从微观拉回宏观。比如宏观展示两个立方体开始融合；微观展示内部的融合过程；最后再拉回宏观，呈现融合后的新立方体。

运镜思路草图

三支视频的区别只在中间过程：线性融合最简单，只需一张中间关键帧，总时长 16s；球面插值和线性插值各需两张，时长均为 24s。

整体→内部核心提示词

这个结构让观众跟着镜头走完一次「整体→内部→整体」的旅程，无需技术背景也能感受到：有什么东西进入了另一个东西，发生了变化，变成了新的东西。

下面说说 3 个中间过程的关键帧及视频思路。

1、线性融合

这是三支视频里最简单的一个。

线性融合的技术特点，是按比例加权平均，这意味着二者的融合一定有泾渭分明的视觉特点，从而保留两个模型各自的特点。

所以，我们的关键帧设计关键是「蓝黄分明」，最中间的小立方体一半蓝、一半黄，而非真正混合。其他小立方体则有的黄、有的蓝、有的开始混合。

视觉上没有任何偏向，呼应「加权平均」这个概念本身。

蓝黄分明的融合过程

提示词上，定好关键帧后，告诉模型这是一个从外部进入内部的过程即可。

融合过程的核心提示词

2、球面插值融合

球面插值，我们选取球体作为内部融合的主要视觉元素。我们设置了 2 个中间关键帧。

中间帧越多，叙事拆分越细，模型越容易稳定执行，但每增加一帧视频就要变长，所以能少则少。

我们引入第二帧的原因是：VEO 3.1 很难一次生成复杂连贯的视频，任务一旦变复合，画面就容易失控：比如形态不稳定，运动不合理等。

我们的思路是：两个球体在立方体内部保持各自形态共存，随后合并生成新形态。

融合过程

提示词上我们刻意压制炫酷效果，避免合并时出现颜色跳跃、闪烁等。

融合过程核心提示词

3、干扰消除融合

干扰消除融合的特殊之处在于，融合并非两个单独个体之间进行，而是两组圆柱体。合并规则是：取蓝黄两方中高度更突出的一方；若双方高度增量都不明显，则只保留黑色基座；若都明显，则融合为绿色。

左边黄色高度不明显，取蓝色；中间双方均不明显，只留黑色基座；右侧双方均明显，融合为绿色

我们在视频生成过程中发现：圆柱体高度来回跳变甚至凭空生成新圆柱体，这就无法体现两个模型的固有属性。

多次尝试后，我们判断问题出在数量、颜色等元素相比前面视频两个要更多、更复杂，模型理解这个过程较为困难，我们放弃提示词描述精度，转向引入摄像机语言：把提示词的关注点从物体的运动变化，转移到摄像机的动作。

模型最擅长的从来不是控制物体，它理解世界的方式本身就是通过视频，而镜头就是视频的语言。用镜头语言描述，它就能变成一个诚实的记录者，减少猜测我们意图的空间。

摄像机镜头核心提示词

而在后续合并过程中，再次频繁出现无效元素。

合并过程

我们直接将负面约束写入提示词。

负面约束提示词

4、结尾

三支视频的结尾大同小异：内部融合完毕后，从微观视角拉回宏观，呈现新的立方体。

我们延续上文干扰消除融合举例：

融合完毕，拉回到宏观

这也是所有片段里最难控制的部分，多次生成都难以达到满意效果。我们同样使用摄像机语言，并加入关键约束来解决。

加入关键约束

四、一些思考

回到开头提到的三个挑战：理解技术、寻找可视化思路、让模型严格执行。

三个挑战的难度并不对等。理解技术是学习，大模型时代比以前容易得多。寻找可视化思路也不难，真正理解了概念，视觉形式往往自然就来了。技术讲解主要考验的是理解力，不是创造力。

真正难的是落地。图片和视频没法局部摘取，有一处不满意就要整体重来。迭代的繁琐程度，取决于你对工具边界的理解：清楚哪些事该人来做，哪些事该交给模型。

多次尝试都无法解决时，关键是顺着模型的思路去想，比如切换到摄像机语言、引入负面约束、修改关键帧等。

但更根本的是，要和模型处于合作关系，而非派活关系。如果能快速站在它的角度想清楚它为什么完成不了，再给一个它能完成的方式，试错成本就可以大幅降低。

1位派友已充电

讨论

默认