【文:FJ 排:NE】
人工智能已经学会用“键鼠”玩电子游戏了。
人工智能(AI)无疑是目前科技界最热门的研究领域,最近十年里我们已经见过许多令人兴奋的成果。从“深蓝”与 AlphaGo 分别在国际象棋和围棋上击败职业棋手,到 OpenAI Five 和 AlphaStar 能够与《刀塔2》或《星际争霸2》职业电竞选手同场竞技,AI 能应对的环境与规则正在变得越来越复杂。
然而,过去我们所看到的这些 AI,都是“弱人工智能”,它们只能处理特定的问题 —— AlphaStar 可以在《星际争霸Ⅱ》里击败职业选手,但它完全不会玩别的游戏,也无法直接让它学会别的游戏,因为它是“为玩《星际争霸Ⅱ》而设计的”。
现在,全球的研究者正在努力实现“强人工智能”,也就是所谓的“通用人工智能”(AGI,Artificial General Intelligenc)。而就在最近几周,两篇论文让我们见到了这方面研究的一些初步成果。无独有偶,两支团队训练人工智能的方法都用到了电子游戏。
北京智源人工智能研究院、新加坡南洋理工大学、北京大学计算机学院携手公开了通用计算机控制智能体框架“CRADLE”,它能够像一个人类玩家一样学会并打通《荒野大救赎Ⅱ》第一章的头两个任务;谷歌旗下的 DeepMind 则公开了通用 AI 智能体“SIMA”,它可以在《无人深空》等 9 款不同游戏中完成一系列任务,其中还包含连人类都会觉得具挑战性的任务。
已经在多款游戏里训练过的 SIMA 自不必说,它不止会一款游戏,而 CRADLE,虽然在迄今为止的研究里只玩了《荒野大救赎Ⅱ》,但考虑到它的运作方式,是有望能学会玩更多不同游戏的。
一切的开端,是“像人类一样玩游戏”。
像人类一样玩游戏
CRADLE 和 SIMA 先后在三月初和三月中旬公布,两者的研究方式和侧重点有所不同,但有一个关键点是相同的,那就是两者都不依赖典型人类用户无法使用的应用程序接口(API,application programming interface)。它们像人类一样接受视觉信息输入、像人类一样输出键鼠操作信号。
依不依赖 API 这一点非常重要。当年 DeepMind 开发的 AlphaStar 在《星际争霸Ⅱ》以 5-0 的压倒性优势击败了职业选手 MaNa,就被质疑“不公平”。
AlphaStar 是 DeepMind 跟暴雪的正式合作项目,开发与研究的过程中,AlphaStar 被灌输了大量《星际争霸Ⅱ》的数据,也使用了 API 直接访问游戏程序的代码,以实现手术刀般精准的操作,甚至还拥有全图视野,不受游戏镜头的限制。换言之,AlphaStar 玩游戏的能力是“定制的”,这跟 CRADLE 和 SIMA 的性质完全不同。
CRADLE 玩游戏不依赖任何特殊 API,而是会从与人类玩家所看到的的游戏画面相同的画面中提取信息,包括文本信息,比如游戏中的标题与文段、导航标签(比如菜单)、通知与指示等,还包括视觉信息,比如布局、图像、动画、用户界面等。为了让智能体理解这些信息,CRADLE 的研究团队使用了论文发表时最强大的大型多模态模型(LMM,Large Multimodal Model)GPT-4V 作为主干模型。
至于输出,虽然 CRADLE 并没有真的在物理层面操控了键盘和鼠标,但它所生成并输入到 PC 中的操作指令,与人类操作键鼠输入到 PC 的指令是一样的。
最终,CRADLE 能理解和解释执行计算机画面以及来自任意软件的连续帧(还包括音频)之间的动态变化,并能生成合理的计算机控制动作,再可靠地执行。实战中,CRADLE 成功完成了《荒野大救赎Ⅱ》第一章主线头两个任务,也成功挑战了游戏第二章开放世界中的开放式任务。
而全称是 “可扩展、可指导、多世界代理”(Scalable, Instructable, Multiworld Agent)的 SIMA,它无法通过 API 访问游戏的内部状态、奖励或任何其他特权信息,玩游戏时所接收的屏幕观察结果也与玩游戏的人类相同,并且同样是通过虚拟键鼠在虚拟 3D 环境中执行操作。
换言之,SIMA 跟环境的交互接口,与人类是“兼容”的,因此它能实现任何人类可以实现的目标,也能够从人类行为中直接模仿学习。研究团队也确实找来了真人玩家让 SIMA 学习。SIMA 通过观看人类打游戏、聆听人类玩家玩游戏时的对话,不断提高自身的游戏水平,在多款游戏中成功通过了 600 项基本技能评估。
过往那些“玩游戏的 AI”,要不是“超人类对手”,要不就是无情的刷分机器,相比之下,CRADLE 和 SIMA 似乎更人性化了 —— CRADLE 就像一位单机游戏萌新,虽然还不是很熟练,但正在努力学习;而 SIMA 则像是一位多人合作游戏萌新,暂时还玩得不算很好,但会虚心听队友的指示打辅助。
像人类一样动脑子
根据 CRADLE 研究团队的说法,CRADLE 是首个在不需依赖已有知识或资源的前提下,能够在复杂 3A 游戏中跟随主线真正完成任务的基于 LMM 的智能体代理。
过去许多同类研究中,往往需要事先向智能体灌输大量对应游戏的数据进行预训练,比如会打《星际争霸Ⅱ》的 AlphaStar 、会下围棋的 AlphaGo,都被“投喂”了大量的对局资料。而 CRADLE,则是在对《荒野大救赎Ⅱ》一无所知的状态下开始游戏的。
而 CRADLE 之所以能在这种前提下游玩《荒野大救赎Ⅱ》,全靠它自身具备的推理决策能力 —— 推理,决策,实践验证,反思,然后再一次实践。
CRADLE 拥有 6 个主要模块:
• 信息收集模块 - 负责接受输入的文本和视觉元素等信息;
• 自我反思模块 - 可以评估上一次操作是否成功、分析失败原因并尝试纠正,也可以重新规划行动;
• 任务推论模块 - 会根据反思结果推论出最适合当前时刻的任务策略;
• 技能管理模块 - 能够检索 CRADLE 目前已经学会的技能中是否有适合当前任务的,并且能随时根据实际情况更新已有技能或生成新的技能;
• 行动规划模块 - 会在技能集中选择适当技能,结合任务推论、上次行动结果和长期总结,生成可执行的行动序列反馈给执行器;
• 记忆模块 - 则负责长期保存经验,以及协助技能管理模块存储、检索、新增技能。
论文中举了一个实际例子说明这种推理能力。游戏中某个任务引导要求玩家装备一把武器,CRADLE 最初从武器轮盘中偶然选择了“刀”,但由于任务其实是需要玩家装备一把枪,因此游戏仍然会提示让玩家重新打开武器轮盘选择武器。此时,CRADLE 的自我反思模块能认识到之前的操作是错误的,于是在之后的尝试中,CRADLE 成功地装备了枪,将任务推进到下一个阶段。
CRADLE 成功挑战游戏第二章开放世界中的开放式任务更是令人感到惊艳。进入《荒野大救赎Ⅱ》第二章后,玩家将会遇到一些开放式的任务,比如“购买补给品”,需要操作角色从营地出发抵达瓦伦汀镇的杂货铺并购物,游戏对这种任务所提供的引导极少,但 CRADLE 自己“动脑子”完成了,就像人类玩家一样。
但话说回来,由于 CRADLE 的推理决策能力主要依赖于 GPT-4V 来分析各种信息,所以目前 CRADLE 的游戏水平受到了 GPT-4V 感知、理解能力的局限。
比如,GPT-4V 的空间感知能力还不足以实现精确的细粒度控制,因此 CRADLE 判断目标物体准确相对位置的能力还有待提高;还有,GPT-4V 目前还难以理解特定领域的概念,因此 CRADLE 在遇到游戏中一些代表特定目标或指代某些鼠标和按键操作的图标时,也不一定能明白图标的作用;此外,GPT-4V 在较长的上下文中很容易被不相关的信息分散注意力,于是 CRADLE 在一些较长的流程中,有时会混淆过去和现在的画面。
在未来,当类似 GPT-4V 这样的 LMM 进一步提高各方面水平,CRADLE 玩游戏的能力也将同步提高。研究团队在论文最后透露,未来会让 CRADLE 尝试更多不同的游戏,比如模拟类和策略类,并且还会尝试各种软件应用程序,尝试证实 CRADLE 能够与任何软件无缝交互。
像人类一样听人话
跟“喜欢独自钻研”的 CRADLE 不同,SIMA 更擅长在其他玩家身上学习玩游戏。这种学习方法来自 SIMA 所掌握的一项独特能力 —— 它能听懂人话。
在许多 AI 研究项目中,研究者往往需要使用计算机专用的简化语法或指令集来与 AI“沟通”,就算是采用了 GPT-4V 的 CRADLE,也需要用优化过的提示词来训练。而 SIMA 不一样,它用开放式的自然语言进行训练。
所谓“自然语言”,简单来说就是正常人类平时所说的话。SIMA 可以理解并执行各种自然语言指令,从简单的“向左转”,到复杂一点的“比较反物质和反物质外壳的制作成本”,再到需要广泛语义知识的“从铲干草的人手中夺取干草叉”,SIMA 都能听懂,并作出正确的反馈。
于是 SIMA 的研究团队找来了一些玩家两两组队并分成两批,一批是一名玩家观察并指导另一名玩家玩游戏,一批是两名玩家自由地边交流边玩游戏。开发者让学会了“听人话”的 SIMA 观看这些人类玩游戏的录像,观察行为并记录引发行为的语言交流。
经过观察学习人类玩游戏作为预训练,研究团队再让 SIMA 去不同的游戏中挑战一些能够在 10 秒左右之内完成任务,比如在《无人深空》里前往飞船所在地、在《英灵神殿》里砍倒一棵树、在《模拟山羊3》里开车。这些任务都是 SIMA 从人类玩家身上观察学习过的。
研究团队评估这些任务是否算成功的标准也颇为苛刻,除了 OCR(光学字符识别)评估外,团队还找来了“至少玩过 16 小时对应游戏的资深玩家”,5 人为一组为 SIMA 玩游戏的录像“严格地”打分。有多严格呢?如果 SIMA 在挑战中执行了无关的操作,哪怕最终达成了目标,这个任务也要标记为失败。
根据论文展示的实验结果,SIMA 已经能够在多个不同环境里完成一些任务,其中还包括人类玩家都认为具有挑战性的任务。例如在《无人深空》里的任务表现,人类玩家的任务成功率也仅有 60%,而 SIMA 的任务成功率则是 34%,也算是可圈可点。
值得一提的是对照组,它们是除了被控制的变量外,其余部分都与 SIMA 相同的智能体。环境专用组(Environment-specialized)是只让学习一款游戏的智能体,语言消融组(No language ablation)是没有使用语言输入的智能体,这两个智能体的任务成功率都低于 SIMA。换言之,多游戏环境下的训练,以及自然语言的训练,确实都能提升 SIMA 玩游戏的水平。
尽管 SIMA 目前尚未达到人类水平,但无论是其能够将学习经验扩展到不同游戏的泛用性,还是能听懂人话的特性,都非常有前景。开发团队表示,未来会进一步扩展到更多游戏/实验环境中,并希望 SIMA 能够处理例如“寻找资源并建立营地”这种需要高层次策略规划和有着多个子任务的复杂任务。
结语
CRADLE 和 SIMA 的研究各有优劣,侧重点和意义也有所不同。CRADLE 侧重于为 AI 建立一种与世界交互的通用方式,为未来真正实现 AGI 铺平道路;SIMA 更关注智能体在不同复杂环境中的适应性,并建立一种能够在虚拟世界安全地测试,而无需承担真实世界测试风险和成本的方案。殊途同归的是,这两个项目都正在电子游戏中,向实现 AGI 迈出了一大步。
这乍听起来跟普通游戏玩家距离相当遥远,但我相信,游戏 AI 的终极形态,肯定也会是 AGI 而不是只会靠设定好的脚本运作的“人工智障”。现在这些前沿研究,终有一天会哺育出玩家在游戏里所面对的完美智能体。而就在我为这篇文章写下结尾的时候,英伟达已经在 GDC 2024 上公布了一系列游戏相关的 AI 技术。
英伟达高级科学家 Jim Fan 在二月就预言,“2024 将会是机器人之年、游戏 AI 之年、模拟之年”,现在 CRADLE 和 SIMA 已经开了个好头,不妨让我们一起期待 2024 年还能见到怎样的突破。
参考资料:
Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study (arxiv.org)
A generalist AI agent for 3D virtual environments - Google DeepMind
Google’s new gaming AI aims past “superhuman opponent” and at “obedient partner” | Ars Technica
向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了 | 机器之心
谷歌通用AI智能体发布,3D游戏玩法要变天了 | 量子位