AI 时代，重识羊驼

引言

2008 年，北京奥运会举世瞩目，五福娃吉祥物风靡一时。

谁料次年初，另一个动物形象就横空出世，热度大有赶超之势。这种诨名为「草泥马」的生物先是惊现贴吧，随即在聊天室、论坛等处广为流传。作为「草泥马」形象的取源，本分布于南美洲的羊驼，开始为地处东亚的国内民众所知。其形似绵羊的皮毛下，有着驴马混搭的身形和滑稽的面部；加上心情不好便喷口水的习惯，深得网友喜爱。很快，这个物种顶着新名字席卷中文互联网，在各处充当别有新意的「吉祥物」，风头一时无两。

不过少有人知的是，很长一段时间里，羊驼给物种分类提出了一定挑战。

从碳基羊驼到硅基 LLaMA

虽有俗名「草泥马」，但羊驼并非一种马。如种名「羊驼」所示，其大意为长相似羊的一种驼。

驼，即是骆驼，与羊驼在面部确有几分相似，只是背部多了耸起的峰。可想而知，相比于羊，羊驼与骆驼在分类上是更相近的种族。事实上，它们同归骆驼科下，分属骆驼族与美洲驼族。

分类一览、逐一相认

如果从骆驼亚科（为骆驼科现存唯一亚科）看起，其科内族属关系如下：

骆驼族：下仅有骆驼属一个属，骆驼属内有双峰驼、野生双峰驼和单峰驼；
美洲驼族：下有羊驼属和小羊驼属。羊驼属也叫骆马属，包含大羊驼（Llama，有时称美洲驼，也叫拉马，偶称骆马）和原驼（Guanaco）：也称野生羊驼。小羊驼属包含羊驼（Alpaca，俗名「草泥马」）和小羊驼（Vicuna，也叫骆马）。

不难察觉，整个美洲驼族中两属四种的名字与称呼，主要突出一个「乱」字。由于中文译名的原因，美洲驼、羊驼、骆马等称呼在不同的语境中可能指代整个族、某一属、个别种，在种间也多有混用。（本文以前述族属关系中的粗体命名为准。）

先看大羊驼和羊驼。它们都是驯化物种，而且是新大陆被发现之前南美洲仅有的驯化牲畜。大羊驼是美洲驼族当之无愧的大哥，身高与成年男子相仿，体重约为人两倍，耳朵多呈稍有弧度的香蕉状，擅长驮负重物，也是驯养主要功能。羊驼，即我们熟悉的「草泥马」，身形稍小，头高如同小学生，体重则接近成人，有尖尖的直耳，皮毛具有不错的经济价值。

从名字上看，羊驼与大羊驼只有码数差距，但两者分属羊驼属和小羊驼属，最多算是表亲。生物学家最初也没搞清楚这一点：在 2001 年根据基因研究结果改正之前，羊驼都还属于羊驼属，后来发现羊驼与野生的小羊驼在血缘上更为接近，遂移至小羊驼属。这也不能怪一开始分类不准确，毕竟西班牙人刚殖民南美时，也根本没分清大羊驼和羊驼，都是混在一起养，于是大羊驼给了羊驼 36% 的 DNA，羊驼再回赠 5%，这才导致了羊驼被分到了表亲大羊驼所在的羊驼属。

再看野生的原驼和小羊驼。 它们则分别比其同属的驯养种小一号，身形也更为苗条：原驼高 1 米出头，重百公斤；小羊驼高约 80 公分，重 50 公斤上下。均为直耳，皮毛不如驯养的羊驼丰满，多有更出色的运动能力。

至此，「大中小原」四种美洲驼已基本理清。

如果转换了时空身份和姓名

转眼进入 AI 时代，ChatGPT 吹起了一股大语言模型之风，恐怕羊驼们绝不曾想到，自己的种族竟也被卷入其中。

AI 产品的命名一向偏好晦涩的缩写。GPT（Generative Pre-trained Transformers）已经是最简明直白的一类。相比之下，同门的 Whisper 语音识别模型发布时，人们挠破头皮也想不出来这种巧妙的缩写从何得来……直到在论文中发现一条不起眼的脚注：

If an acronym or basis for the name is desired, WSPSR standing for Web-scale Supervised Pretraining for Speech Recognition can be used.

——既然你诚心诚意地发问了，那我就大慈大悲地告诉你用 WSPSR 凑合一下。

至于 DALL-E 这个致敬艺术家（西班牙超现实主义画家 Salvador Dalí [萨尔瓦多·达利] ）又碰瓷机器人（WALL-E，皮克斯动画《机器人总动员》中的形象瓦利）、根本没个缩写来源的产品式命名，便更不要提了。

GPT 的竞争者在模型性能上紧追不舍，在起名工作上也不落下风。2023 年 2 月 24 日，Meta AI 发布预训练大语言基础模型（Large Language Model Meta AI）。或许是为了图吉利凑个整，Meta 并没有遵循严格的首字母缩写，而是硬生生从这串拗口的单词中看出了梗。

就这样，硅基大羊驼诞生了——LLaMA。

然而，这只大羊驼并没有名字所暗示的那么拉风。基于 1.4 万亿语料（token）预训练的 LLaMA 65B 具有 650 亿参数量，同系列还有 33B、13B、7B 不同参数量的版本（后两者训练语料略少些）。作为对比，ChatGPT 的底座模型 GPT-3 175B（代号 davinci ）参数量为 1750 亿。故仅从参量而言，大羊驼仍显著逊色于「达芬奇」。

值得注意的是，Meta 特别说明 LLaMA 是以非商业授权的形式发布，应主要用于学术研究。其 GitHub 仓库仅给出加载运行模型的示意代码，若要获取核心模型权重，还需要填写表单申请。尽管如此，释出的模型无疑给久旱的社区注以甘霖，为挑战 OpenAI 封闭式炼丹吹响冲锋的号角。

接下来的短短数十天内，在大羊驼 LLaMA 的托举下，羊驼们已然蓬勃成军，正朝看似高不可攀的 ChatGPT，全方位、一步步地追赶进攻——

3 月 13 日，斯坦福大学基础模型研究中心（Center for Research on Foundation Models，CRFM）发布了指令精调模型 Alpaca 7B，使用 5.2 万由 OpenAI 的 text-davinci-003 模型¹生成的指令数据，对 LLaMA 7B 进行精调而得。斯坦福羊驼横空出世，开源了包括准备过程、数据集、训练步骤等在内的整套方案，经评估能取得近似 text-davinci-003 的指令服从效果，但低成本且高效、易于复现，经验启发了许多蠢蠢欲动的后来者。

3 月 16 日，在 Alpaca 基础上补充了多语种语料和指令任务的 Guanaco 原驼模型问世。

3 月 19 日，来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣地亚哥分校的几位计算机博士组队，以大模型系统（Systems for Large Models，LM-SYS）的名义发布了「小羊驼」 Vicuna-13B。基于 ShareGPT 收集的对话对 LLaMA 进行精调，仅需 300 美元即完成训练的小羊驼，号称达到了 ChatGPT 90% 的能力，并将 Meta 大羊驼和斯坦福羊驼均甩在身后。

3 月 23 日，「中文小羊驼」Chinese-Vicuna 携模型及数据面世，基于 LLaMA 模型和 LoRA 方案，可按需投喂数据进行个性化指令精调。

3 月 24 日，Databricks 发布 Dolly 模型，基于「有些过时」的 GPT-J-6B 精调，旨在证明精调指令数据比底座模型更为重要。考虑到其本质是 Alpaca 的开源克隆²，Dolly v1 虽不涉及 LLaMA 许可，但因 Alpaca 所用指令精调数据通过调用 OpenAI API 生成，按照 OpenAI 的非竞争条款不可商用；于是 Databricks 发动公司员工举办了标注竞赛，所得数据精调来的 Dolly v2 终于可以商用，「克隆羊多利」之名也由此而来。

3 月 25 日，来自华中师范大学和商汤的几位伙伴发布了开源中文大语言模型「骆驼」(Luotuo)，并坦白命名逻辑：

我们将项目命名为骆驼 Luotuo (Camel) 主要是因为，Meta之前的项目LLaMA（驼马）和斯坦福之前的项目alpaca(羊驼)都属于偶蹄目-骆驼科（Artiodactyla-Camelidae）。而且骆驼科只有三个属，再不起这名字就来不及了。

3 月 28 日，中文 LLaMA & Alpaca 大模型发布，在 LLaMA 基础上扩充了中文词表并加入中文数据预训练，以及与 Alpaca 相似但增加了中文指令数据的精调，显著提高模型中文能力；

日新月异，不堪尽数……

不止模型，周边配套工具同样呈星火燎原之势：大幅降低推理成本的 llama.cpp、连接羊驼与外部资料的 LlamaIndex、对羊驼模型进行局部再训练的 Alpaca-LoRA、训练提高羊驼感知链的 Alpaca-CoT、在 macOS 优雅地跟羊驼们聊天的 LlamaChat（本文封面即引自该项目的放克羊驼）。

……全链条覆盖，俨然已自成生态。只等某天时机成熟，便围攻 OpenAI 于光明顶。

结语

据说羊驼母亲妊娠时间长达 11.5 个月，但刚分娩出世的羊驼仔落地即可奔跑。这与 LLaMA 和 Alpaca 发起的大语言模型（LLM）平民化运动莫名雷同——起步虽晚，加速极强。

时至今日，美洲驼一族已不局限于南美，其凭借惹人喜欢的外表和聪明友善的性格，正被全世界人民了解。另一边，大语言模型发展仍纷繁暇目，羊驼伙伴名字都几乎用尽，转而以一种精神符号存活于开源社区的各处，激励大家继续求索。希望在不久的将来，AI 人人可用。

本文是笔者在追踪 LLM 社区发展过程中的一些片段整理，出于好奇，自觉有趣，与君分享。