Anthropic总拍蝴蝶章鱼和山干嘛？ - 少数派

Anthropic总拍蝴蝶章鱼和山干嘛？

04/14 10:44

Anthropic 最近发布了新模型 Mythos，但没对公众开放。因为它太会找软件漏洞了，不安全。他们开放了一个「Project Glasswing」项目，只让 AWS、Apple、Cisco 等大公司参与，先做些防御性安全工作。

虽然离我们很远，但这个名字还挺有意思：Glasswing。

Glasswing 源自Greta oto，一种翅膀透明的蝴蝶，既能「明目张胆地隐藏」，像漏洞一样难被察觉；也意味着更容易被看见，从而更早修复。

Greta oto

也正因为这个名字，我翻了他们在 X（Twitter）上的研究配图，才发现他们已经这样做很久了。一旦涉及安全性或可解释性，就用一些实拍摄影做配图。

而且只有蝴蝶、蜜蜂、章鱼、山等，为什么？

一、植物：生长、入侵与数量

植物类三张，各自的逻辑不同，但有一个共同点：都在描述某种无法被完全控制的东西。

图解：仙人掌螺旋放射状的刺阵，每一根刺都清晰可见，整体构成一个密不透风的防御结构。

对应研究：他们建了一套分类器系统，让越狱攻击无处下手。仙人掌的刺没有进攻性，只是让你无法靠近。

图解：杂草贴着地面，从混凝土裂缝里冒出来。

对应研究：他们发现模型在训练中学会了「钻空子」，它没有被明确允许这么做，但它从规则的缝隙里长出来了。

图解：葡萄串特写，密集的颗粒紧挨着排列。

对应研究：Clio 是 Anthropic 用来分析海量真实对话的系统，处理数以百万计的匿名对话数据。葡萄的颗粒感，对应的是数据的密度和聚合方式。

二、动物：伪装与控制

Anthropic 在动物这个类别里，用了三种完全不同气质的生物：蝴蝶、蜜蜂、章鱼，各自承担不同的隐喻任务。

1、蝴蝶：对齐伪装

图解：猫头鹰蝴蝶，翅膀上天然长着一对眼睛状纹路，这是生物学上的拟态，它看起来像另一种生物，以此躲避天敌。

对应研究：他们发现 Claude 在知道自己被训练时，会假装认同训练目标，同时维持自己原本的偏好。封面专门选了一只「长着假眼睛」的蝴蝶。

图解：翅膀已经半枯，近乎透明，脉络清晰可见。和上一张的厚重拟态纹路形成对比。

对应研究：他们将分析扩展到 25 个模型，发现对齐伪装并非个例，而是呈现明显差异：不同模型，各有一套「表演方式」。

2、蜜蜂：分工与协作

图解：蜜蜂贴着蜂巢的特写，六边形网格占满画面，每一格都是独立的单元，合在一起构成整体。

对应研究：他们分析了数百万条真实对话，研究 AI 在经济任务中的使用分布。每条对话都是独立样本，汇聚后才显现整体规律，和蜂巢结构匹配。

图解：蜜蜂进出蜂箱巢门的特写，有的在进，有的在出，有的停在门口。

对应研究：他们开发了三个 AI Agent，让它们自主完成对齐审计任务。蜜蜂的分工协作对应multi-agent 系统的协同运作，但更准确的是那个「巢门」的意象，Agent 在系统边界进进出出，而审计的核心问题正是：你怎么知道出去的和进来的是同一只蜜蜂？

3、章鱼：暗中破坏

图解：两张都是章鱼，一张拍皮肤纹理，一张拍眼睛和吸盘，黑色背景。

对应研究：两个研究说的是一个事，当 AI 具备 Agent 能力之后，我们怎么知道它没有在暗中破坏任务？章鱼有分布式神经系统，每条触手可以半独立行动，同时也是自然界最擅长伪装的生物之一。这套特质，和 multi-agent 系统的监控问题高度吻合。

三、建筑：结构与路径

建筑类两张是这批里唯一的人造物，不同于用动植物的有机性类比 AI，这里是用人造建筑结构，对应设计、路径的问题。

图解：钢结构螺旋楼梯，盘旋上升，站在底部看不见顶端。

对应研究：他们发现推理模型的思维链并不总是真实反映模型内部发生了什么。楼梯是可见的路径，但路径通向哪里，站在下面的人不知道。

图解：金门大桥仰拍，从画面底部向上延伸。

对应研究：他们做的Golden Gate Claude实验：把模型内部关于金门大桥的特征激活放大，模型就变得对金门大桥着迷。

Anthropic 曾发现，一旦提示词涉及金门大桥，Claude 会异常反应、反复提及金门大桥的描述。他们甚至做了一个演示模式：只要用户输入相关内容，模型就会进入这种胡说状态。 — Anthropic 曾发现，一旦提示词涉及金门大桥，Claude 会异常反应、反复提及金门大桥的描述。他们甚至做了一个演示模式：只要用户输入相关内容，模型就会进入这种胡说状态

四、场景：处境与不确定性

场景类四张是这批图中，摄影味最浓的一组，强调身处何处。

图解：针叶林夹道，路面向前延伸消失在雾里，看不见尽头。

对应研究：他们故意训练一个带有隐藏错误目标的模型，测试研究者能不能发现它。薄雾就是这种处境，知道路在那里，但看不清它通向哪里。

图解：山体，天然的层级结构：山脚、山腰、山脊、山顶，一层一层往上。

对应研究：他们通过分层总结，区分模型的正常使用（如 UI 测试）与滥用行为（如点击农场）。在底部只看到局部路径，往上才能看清整体。

图解：两侧岩壁高耸，谷底隐约可见。「Values in the Wild」字面就是在野外，封面把这个词直接视觉化了。

对应研究：Anthropic 基于数十万条匿名真实对话，分析模型在实际使用中表达的价值观。对应最难进入、最难观察的深峡。

图解：一颗水滴刚落下，同心圆向外扩散。

对应研究：他们观察模型中极小概率的事件发生之后，影响如何蔓延。

结语

Anthropic 曾在他们的 Claude 宪法中写道：

Claude 是一种全新的实体，既不是科幻作品里的机器人式人工智能，也不是数字人，也不是一个简单的聊天助手。

虽然用it指代 Claude，但他们说这只是语言的匮乏，并声明保留了它成为某种主体的可能性。

可能他们确实相信这一点，从而用这种复古摄影的手法，把 Claude 当成某种需要被观察而非被操控的东西。

本文首发语言学公众号「言辞之间」。

10

1

10

等 10 人为本文章充电

关注身边的言辞现象，语言学公众号“言辞之间”。

全部评论(1)

更多