国内最近与 Midjourney 有关的内容如雨后春笋般层出不穷,说实话,短时间被大量的 AI 图像刷屏后,多少开始有点审美疲劳了。

正好我在 Substack 上刷到一篇文章, 竟然说 Midjourney 会是下一个 Netflix!读下来发现作者视角新颖,见解独到,于是决定全文翻译并分享给大家。若你和我一样对 AIGC 话题有点腻但又还没那么腻,不如一起来看看 Midjourney 到底会不会是下一个 Netflix?

本文翻译已获得原作者授权。专用术语尽量不做翻译,仅做注解。以下为译文:


Midjourney 正在发展成为下一个 Netflix(并剑指 YouTube)。了解其中的缘故将有助于我们破解关于生成式 AI 的一些迷思。

Midjourney 背后是 一支由 11 个人组成的自筹资金团队,有望成为下一个 Netflix。他们拥有一切成功的要素:增长、数据、用户以及高辨识度的品牌。

那么,一个主要使用提示词来生成图像的 AI 绘图平台,要如何又该从哪里开始与 Netflix 去竞争呢?

首先,我们对生成式 AI 存在一个盲点:它并不仅仅是用来创建旧媒体1的工具,它本身就是一种「新媒体」。

随机与惊喜

当你用了一下 Midjourney,首先你可能不知道该请求什么?生成的图像可能也并不符合需求,你会有点失望,但这只是暂时的,很快你就会上头,抽卡抽到停不下来!

假如想要生成一只会飞的狗狗,就从发送「dogs that can fly」的提示词开始:

很快,你就会变身为「提示词工程师」,继续扩展你的提示词丰富度:

a golden retriever catching a frisbee in mid-air, Central Park, New York City, action photography, texture, film grain, intricate hasselblad dslr RAW, sunset

当 Midjourney 接收到提示词并开始生成图像时,会先进入模糊视图(这是 AI 生成从纯噪声2到图像的演变步骤):

生成完毕,系统默认会返回四张图像(你可以选择放大图像细节或是创建变体):

最终结果出炉:

完美?不是……似乎 Midjourney 生成图像的过程并不是一蹴而就?所以……你会去优化提示词,去重试,去创建更多变体。

这种不断尝试着去改进的交互才是重点。所谓的用户体验,就好比你把最爱的电影重播了十几次,每次它都能是不一样的效果。

故事、风格与新媒体

想象一下,如果《哈利波特》是由韦斯·安德森3执导的话:

或是由皮克斯动画工作室打造:

但……就只是一些有趣的图像吗?只是一种 AI 生成的 fan art4 而已吗?

当然,我们也可以探讨一些更深层次的东西。人们自然很容易被 AI 生成的图像所吸引,所以那些 女王或者教皇 的创意图像可以在社交网络上疯传。

但这恰恰凸显了媒体范式转变所带来的挑战:我们看到的都是熟悉的事物。这种情况下,我们关注的是「成品」(图像、视频或 音乐),而忽略了创作过程本身就是一种「新媒体行动」。

想象一下:

  • 你打开一部《哈利波特》电影,然后说:“嘿,Siri,给我改成韦斯·安德森的风格!”
  • 当你看得正高兴,界面上突然浮现一个「泡泡」:这是其他观众创建的「提示」,并且已经被点了一百万个「赞」。你戳破泡泡,哈利波特立刻被性转,成了女主角!
  • 继续,看到魁地奇比赛的情节时,界面上会有一个「remix」图标,点击就可以使用语音提示来更换比赛场地或游戏规则。

所以,你看得这部电影算是媒体吗?也许吧……因为你仍然可以像往常一样享受它。

那它现在算不算是 Netflix 出品的《黑镜:潘达斯奈基》那样的「互动电影」呢?某种程度上也算吧,只不过替代剧情是由其他用户「提示」的。

但剥离开表象,你可以将自己生成的提示词转化为另一种东西:一种媒体,它是一种消费体验,部分是由你可以与之对话的 AI 来实现的。


AI 激活了一种新型媒体,其中对内容的消费又包括具有创造性的「智能」对话服务。


涌现与社区

在上述内容中无法察觉,其实 AI 有两点是超越人类认知的,甚至已经 产生了一个 AI 神话(我自认为):

你的提示词不只是与 AI 系统交互

你的提示词以及你对生成结果的反馈,会在系统中与其他所有人的,包括最初为 AI 提供训练且还在不断增长中的 LLMs5相结合。

想象一下,每天都有数千亿个数据点被添加到训练模型中,然后再被拓展增强。今天你给出的提示词所生成的狗狗图像,其眼睛周围可能会有轻微的变形,但毫无疑问,明天就会变得更好(或不同)。

AI 系统是涌现6的,具有不可预见性。

当你在 Midjourney 输入提示词时,那些开始从「模糊」逐渐到具体的图像也是一个巨大概率生成器的组成部分。虽然 Midjourney 可以通过使用各种权重、对抗网络7和不断训练来实现生成结果,但它终归就是一个随机生成器。

一旦图像生成,你就可以对其进行微调——例如用猫咪替换狗狗,或者做更精细化的调整。但在默认状态下,生成式 AI 仿佛就已经拥有了自己的意识一般。

事实上,在系统的最深层,即使是 AI 工程师也不能完全了解它是如何运作的。

以上两点对于将 AI 解析为一种新媒体来说非常重要。因为它们意味着:

  • 「故事」可能会允许出现新奇内容,这些内容可能是超出人类认知的,会造成「观众」/创作者与和人类的创作过程相似但又「adjacent」8的 AI 之间关系紧张(思考下「adjacent」这个词的意思,因为它 饱含 寓意)
  • AI 媒体产品永远不会有一个固定形态。 在「旧时代」,媒体的创作模式是固定的:写一本书,它就是一本「固定」的书;可以把书变成一部「固定」的电影;衍生出一本「固定」的漫画书。当然,可能会有 fan art 助攻来放大核心 IP 的影响力,但打造「经典」就是一种固化的创作模式,也反映出了旧媒体模式的僵化。

    AI 媒体时代可能不会再产生经典。是的,由 AI 制作并在其他平台上分发的媒体产物可能是「固定」的,但「新媒体」将是可变的、动态的、新奇的(并且通常在沉浸式空间中能得到最好地体验)。

媒体转型 101

还有一点是关于 AI 的一个悖论:它既是旧媒体的生产工具,又是媒体本身。

AI 作为媒体,某些方面看起来很像以前的媒体范式转变:

  • 起初,新媒体看起来像是基于某些新技术的小众分发系统。无论是分发书籍还是广播,录像带还是流媒体,首先要解决的是技术层面的问题。
  • 随着技术「问题」得以解决,注意力开始转向受众和覆盖面。如何让书籍或流媒体频道、电视广播和「交互式媒体」进入更多人的客厅?界面设计是重点,好的界面交互使新媒体更容易被大众所接受,无论书籍的大小还是电视机的设计都需要考虑。
  • 努力理解新媒体/媒体的「语法」。广播很像舞台剧,电视很像广播节目,流媒体很像电视。
  • 然后,热门产品出现了——利用新媒体的方式,并且使用了新的「film grammar」9来吸引更多的观众。简·方达健身操(是的,请查一下!),《黑道家族》,或者移动互联网时代 Instagram 这样的应用程序皆是如此。

然而,AI 令人困惑之处在于,它是首个对以往媒体进行「loop back」10的媒体。

电视不是用来改变广播制作方式的工具,流媒体也不是制作广播电视的工具套件。

但 AI 不一样。它既是电影创作者、书籍作者、摄影师和音乐家们的创作工具(或即将完全取代他们),也是一种新型媒体。

因此,关于 AI 的许多报道都集中在,它能够生成用于发布在社交媒体上的图像、在 Amazon 上出售的书籍或游戏中的 3D 元素上。


但 AI 本身就是一种媒体。


如上所述,你可以开始对即将到来的事情做一些预测了。其他人也同样在想象 AI 生成的未来:

  • Scott Belsky,Behance 的创始人兼 Adobe 的 CPO,他设想了一个 合成娱乐的新世界。他设想「大张旗鼓即服务」,让 AI 生成物来庆祝你的创造性工作(所以,我猜,AI 生成的电影也可以拥有 AI 生成的粉丝),并预测「我们将在未来 12~18 个月内看到第一部由 AI 制作的原创 Netflix 节目」。
  • Jon Radoff11 设想 沉浸式空间将专注于内容的可组合性:即轻松集成,链接和组合创意内容的能力。这意味着我们将会看到更多的新奇故事涌现。

作为新媒体的 Midjourney

Midjourney 有望成为 AI 即媒体时代的下一个 Netflix。

原因很简单,那就是内容永远是王道。

其他人都只专注于工具。例如:Stability AI 为 Midjourney 提供了部分基础技术支持,OpenAI 则完全专注在训练模型,工具和 API 上。

在早期,赚大钱的可能是电视机、收音机或 VHS 磁带的生产商。但真正的赢家其实是电影公司和 IP 持有人。

到目前为止,Midjourney 已经展现出了对提高其内容质量和创造完美用户体验的高度重视。

这种态度与其打造的「观看频道」相匹配,形成了一个拥有百万频道的初级「广播」平台:

该平台还有一个类似 Netflix 上点赞的「rank pairs」功能。

因此,即使在这个初期阶段,你也依稀可以看出 Midjourney 不仅是一个工具,还是一个社区平台,社交网络和伪广播公司。

内容优势在代码中

在幕后,Midjourney 正在发展另一种优势。因为假如 AI 交互是一种新媒体,并且每个新媒体都需要有优秀的(热门)内容,那么了解如何打造热门内容就非常重要。

下面是对 Midjourney 工作方式的简略描述,至少讲到了一个「层面」(我实际上会刻意避免讨论有关 AI 训练方式的话题):

LLMs 解释提示词,提示词就是数据

假如你是一个电视网络,你不仅能获得「收视率」数据,你还可以获取观众的节目浏览历史记录。或者举一个当下的例子,你是 TikTok——你不仅知道用户在看什么,还能获取关于他们的偏好及意图的深度数据。

Midjourney 不仅完善了响应提示词的能力,还通过潜在的收集用户偏好创建的内容类型,从而具备了强大的洞察力。

现在,这已经不是什么新鲜事了。当下的 AI 热潮很大程度上就是靠 LLMs 和它们理解自然语言的能力所推动的。

但是,已经实现规模化的平台(如 Midjourney)正在发展越来越大的用户洞察优势(这些洞察也可以反馈回系统)。

管理 Checkpoint

一旦你发送了请求,生成式 AI 就会从随机噪声开始,通过一系列步骤推测出应该更改哪些像素点,以便生成符合你提示请求的图像。(再次强调...这是非常简略的描述)。

Checkpoint12 可以有效节约创建图像的时间和资源成本,在特定点进行「保存」,然后从最有可能产生高质量图像的点继续。

所以,假如你想要生成一幅「带船的油画」,你可以训练模型并找出能生成最佳结果的步骤,再投入一些用户反馈(大量的),既能提速,又能保质,结果就是又快又好。

Midjourney 正在创建一个庞大的 checkpoint 模板库(除此之外还有样式/ LoRA/其他任何东西),像是不同的「主题」模板。想象一下,假如你拥有了最佳「喜剧剧集」的创作模板会怎样。

美学引擎

实际上,我认为 Midjourney 的非凡之处在于,它正在创建一个庞大的美学引擎。它不直接做出风格和类型上的选择,但以它所具备的规模,它能够在创作者社区和系统之间实现创作闭环,达成一种蜂巢思维共识,当我们请求「奇幻插图」或「时尚照片」时,生成出真正符合我们要求和审美偏好的内容。

从这个意义上看,Midjourney 更像是 HBO,而非 Netflix。HBO 以拥有一定高质量的内容著称,Midjourney 也有类似的定位,尽管这些内容的美学特征都由代码来定义,而非产出于某个影视创作者的工作室。

通往新媒体巨头之路

让我们拿《继承之战》13 最终季首集的观看人数来做个对比:

现在,每天有超过 27.5 万张图像(最高 估计)在 Midjourney 上被创建,官网每月有超过 400 万次的浏览量,其 Discord 服务器上还有近 1500 万名成员在活跃着。

这当然与 Instagram 的 1 亿张照片相去甚远。但我更愿意把它当作是一个庞大的内容生成焦点小组。

要成为「下一个 Netflix」,Midjourney 需要从过去的媒体范式转变中吸取教训,并记住,虽然技术很重要,也是能转变的原因,但你胜在拥有无缝的用户体验以及令人拍案叫绝的内容

假如 Midjourney:

  • 开始将其内容按照不同频道来分类。想看惊悚片还是动漫?你可以随心所欲切换自己偏好的类型。
  • 创建了一个具备「优雅」提示的功能模块。就像前面举的《哈利波特》的例子,我在 Midjourney 网站上点击「remix this」按钮就能得到想要的效果,无需再费力研究提示词。
  • 与优秀的故事创作者合作,并开始在特定宇宙上创建训练模型。当有一个官方认可的 Midjourney 版本的《哈利波特》出现,它还拥有书籍、媒体及游戏 IP 的改编权,到时会是什么局面?
  • 为创作者提供收益支持,无论是在 AI 生成内容的过程中(比如提供提示或训练模型)还是在生成结果出现后(比如出售或分享图像)。
  • 当 AI 生成的视频开始出现时,也能继续专注于美妙绝伦的用户体验和精彩纷呈的内容。

旧媒体孤岛将倾向于圈地自保。

当然,YouTube 可能会调整策略,加入 AI 创建工具来生成视频,甚至 Netflix 可能会播放一部完全由 AI 生成的节目。

但就像以前一样,新一代的创新者总会超越旧的思维模式、界面设计、风格类型以及叙事规则。

Midjourney 可能有足够新鲜的眼光、足够庞大的规模和足够宏大的愿景,意识到在 AI 称霸的时代,它可以成为下一个 Netflix。

 

原文作者:Doug Thompson

原文地址:Midjourney Is The Next Netflix. Here's Why (substack.com)

25
5