Anthropic 最近发布了新模型 Mythos,但没对公众开放。因为它太会找软件漏洞了,不安全。他们开放了一个「Project Glasswing」项目,只让 AWS、Apple、Cisco 等大公司参与,先做些防御性安全工作。
虽然离我们很远,但这个名字还挺有意思:Glasswing。
Glasswing 源自Greta oto,一种翅膀透明的蝴蝶,既能「明目张胆地隐藏」,像漏洞一样难被察觉;也意味着更容易被看见,从而更早修复。

也正因为这个名字,我翻了他们在 X(Twitter)上的研究配图,才发现他们已经这样做很久了。一旦涉及安全性或可解释性,就用一些实拍摄影做配图。

而且只有蝴蝶、蜜蜂、章鱼、山等,为什么?
一、植物:生长、入侵与数量
植物类三张,各自的逻辑不同,但有一个共同点:都在描述某种无法被完全控制的东西。

图解:仙人掌螺旋放射状的刺阵,每一根刺都清晰可见,整体构成一个密不透风的防御结构。
对应研究:他们建了一套分类器系统,让越狱攻击无处下手。仙人掌的刺没有进攻性,只是让你无法靠近。

图解:杂草贴着地面,从混凝土裂缝里冒出来。
对应研究:他们发现模型在训练中学会了「钻空子」,它没有被明确允许这么做,但它从规则的缝隙里长出来了。

图解:葡萄串特写,密集的颗粒紧挨着排列。
对应研究:Clio 是 Anthropic 用来分析海量真实对话的系统,处理数以百万计的匿名对话数据。葡萄的颗粒感,对应的是数据的密度和聚合方式。
二、动物:伪装与控制
Anthropic 在动物这个类别里,用了三种完全不同气质的生物:蝴蝶、蜜蜂、章鱼,各自承担不同的隐喻任务。
1、蝴蝶:对齐伪装

图解:猫头鹰蝴蝶,翅膀上天然长着一对眼睛状纹路,这是生物学上的拟态,它看起来像另一种生物,以此躲避天敌。
对应研究:他们发现 Claude 在知道自己被训练时,会假装认同训练目标,同时维持自己原本的偏好。封面专门选了一只「长着假眼睛」的蝴蝶。

图解:翅膀已经半枯,近乎透明,脉络清晰可见。和上一张的厚重拟态纹路形成对比。
对应研究:他们将分析扩展到 25 个模型,发现对齐伪装并非个例,而是呈现明显差异:不同模型,各有一套「表演方式」。
2、蜜蜂:分工与协作

图解:蜜蜂贴着蜂巢的特写,六边形网格占满画面,每一格都是独立的单元,合在一起构成整体。
对应研究:他们分析了数百万条真实对话,研究 AI 在经济任务中的使用分布。每条对话都是独立样本,汇聚后才显现整体规律,和蜂巢结构匹配。

图解:蜜蜂进出蜂箱巢门的特写,有的在进,有的在出,有的停在门口。
对应研究:他们开发了三个 AI Agent,让它们自主完成对齐审计任务。蜜蜂的分工协作对应multi-agent 系统的协同运作,但更准确的是那个「巢门」的意象,Agent 在系统边界进进出出,而审计的核心问题正是:你怎么知道出去的和进来的是同一只蜜蜂?
3、章鱼:暗中破坏


图解:两张都是章鱼,一张拍皮肤纹理,一张拍眼睛和吸盘,黑色背景。
对应研究:两个研究说的是一个事,当 AI 具备 Agent 能力之后,我们怎么知道它没有在暗中破坏任务?章鱼有分布式神经系统,每条触手可以半独立行动,同时也是自然界最擅长伪装的生物之一。这套特质,和 multi-agent 系统的监控问题高度吻合。
三、建筑:结构与路径
建筑类两张是这批里唯一的人造物,不同于用动植物的有机性类比 AI,这里是用人造建筑结构,对应设计、路径的问题。

图解:钢结构螺旋楼梯,盘旋上升,站在底部看不见顶端。
对应研究:他们发现推理模型的思维链并不总是真实反映模型内部发生了什么。楼梯是可见的路径,但路径通向哪里,站在下面的人不知道。

图解:金门大桥仰拍,从画面底部向上延伸。
对应研究:他们做的Golden Gate Claude实验:把模型内部关于金门大桥的特征激活放大,模型就变得对金门大桥着迷。

四、场景:处境与不确定性
场景类四张是这批图中,摄影味最浓的一组,强调身处何处。

图解:针叶林夹道,路面向前延伸消失在雾里,看不见尽头。
对应研究:他们故意训练一个带有隐藏错误目标的模型,测试研究者能不能发现它。薄雾就是这种处境,知道路在那里,但看不清它通向哪里。

图解:山体,天然的层级结构:山脚、山腰、山脊、山顶,一层一层往上。
对应研究:他们通过分层总结,区分模型的正常使用(如 UI 测试)与滥用行为(如点击农场)。在底部只看到局部路径,往上才能看清整体。

图解:两侧岩壁高耸,谷底隐约可见。「Values in the Wild」字面就是在野外,封面把这个词直接视觉化了。
对应研究:Anthropic 基于数十万条匿名真实对话,分析模型在实际使用中表达的价值观。对应最难进入、最难观察的深峡。

图解:一颗水滴刚落下,同心圆向外扩散。
对应研究:他们观察模型中极小概率的事件发生之后,影响如何蔓延。
结语
Anthropic 曾在他们的 Claude 宪法中写道:
Claude 是一种全新的实体,既不是科幻作品里的机器人式人工智能,也不是数字人,也不是一个简单的聊天助手。
虽然用it指代 Claude,但他们说这只是语言的匮乏,并声明保留了它成为某种主体的可能性。
可能他们确实相信这一点,从而用这种复古摄影的手法,把 Claude 当成某种需要被观察而非被操控的东西。
本文首发语言学公众号「言辞之间」。

