DeepMind 在多智慧体强化学习又有新进展，最新成果登上《Science》 04月29日更新

集体智慧（collective intelligence）是人工智能研究浪潮中不可忽视的重要课题。然而，智慧体如何在边界开放、约束动态的环境下学到知识并团队协作，仍是极具挑战性的难题。DeepMind 近年来针对基于种群的多智慧体强化学习大量研究，最新研究成果近日发表在国际权威杂志《Science》。DeepMind 在部落格发文介绍这项成果，编译如下。

智慧体在多玩家电子游戏掌握策略、理解战术及团队合作是人工智能研究领域的重大挑战。我们发表在《Science》杂志的最新论文《Human-level performance in 3D multiplayer games with population-based reinforcement learning》，展示了智慧体在强化学习领域的最新进展，在《雷神之锤 III 竞技场》（Quake III Arena）夺旗赛（CTF）取得与人类相当的性能。这是一个复杂的多智慧体环境，也是第一人称多玩家的经典 3D 游戏之一。这些智慧体成功与 AI 队友和人类队友合作，表现出很高的性能，即使在训练时，反应时间表现也与人类相当。此外，我们还展示了如何成功将这些方法从研究 CTF 环境扩展到完整的《雷神之锤 III 竞技场》游戏。

▲ 玩 CTF 游戏的智慧体，以其中一个红色玩家为第一人称视角展现的室内环境（左图）和室外环境（右图）。

▲ 智慧体在完整的锦标赛地图的另外两个《雷神之锤 III 竞技场》多人游戏模式下进行游戏：在“Future Crossings”地图进行收割者模式（左图），在“ironwood”地图进行单旗夺旗模式（右图），游戏中可拾取并使用完整版游戏的所有的道具。

目前数十亿人住在地球上，每个人都有自己的目标和行为。但人们仍能透过团队、组织和社会团结在一起，展示出非凡的集体智慧。我们将这种情况称为多智慧体学习：许多独立的智慧体必须单独行动，但同时也要学会与其他智慧体互动和合作。这是非常困难的问题，因为需要适应其他智慧体，所处的世界环境就会不断变化。

为了研究这个问题，我们着眼于第一人称的多人三维电子游戏。这些游戏也代表目前最流行的一类电子游戏，由于能为用户提供沉浸式游戏体验，这类游戏充分开发数百万玩家的想像力，同时也对玩家在策略、战术、手眼协调及团队合作等方面提出挑战。我们的智慧体面临的挑战便是直接利用原始像素生成决策行为。这种复杂性也使第一人称多人游戏在人工智能领域成为硕果累累、朝气蓬勃的专题研究。

夺旗赛：根据像素做动作决策

这项研究中，我们聚焦于《雷神之锤 III 竞技场》（保证所有游戏机制不变的情况下，我们微调了美工）。《雷神之锤 III 竞技场》是许多现代第一人称电子游戏的奠基者，曾在电子竞技舞台风靡一时。我们训练智慧体像人类玩家学习和行动，但它们必须以团队合作方式与其他智慧体（无论 AI 玩家还是人类玩家）合作或对抗。

CTF 的规则很简单，但动态变化非常复杂。两队独立玩家比赛的方式是：在给定的地图以夺取对方队伍的旗帜为目标，同时保护自己的旗帜。为了获得战术优势，玩家可攻击对方战队的玩家，将之送回复活点。5 分钟的游戏时间结束后，获得旗帜数量最多的队伍获得胜利。

从多智慧体视角来说，CTF 要求玩家同时做到与队友通力合作及与对手队伍对抗，并且还要对可能遇到的任何比赛方式保持强健性。

为了让工作更有趣，我们还考虑了 CTF 变体形式，其中的地图布局每经过一场比赛就会变化。结果，智慧体被迫取得通用策略，而不是记住地图布局。此外，为了竞争公平性，智慧体在学习过程以与人类相似的方式探索 CTF 的世界：它们会观察一组图像的像素流，然后透过模拟的控制器采取行动。

在程序生成的环境进行 CTF，这样一来智慧体的能力必须泛化到没有见过的地图。

智慧体必须从头开始学会如何观察环境、执行动作、合作及在未见过的环境竞争，所有这些都学自每场比赛的单个强化信号：它们的团队是否获胜。这是一个极具挑战的学习问题，解决方案是以下强化学习的 3 种通用思想为基础：

我们训练的是一个智慧体种群，而不是训练单个智慧体。种群智慧体透过与其他智慧体进行游戏来学习。在游戏中，智慧体彼此的关系多种多样，可能是队友也可能是对手。
种群中每个智慧体都需要学习自己的内部奖励信号，这使智慧体生成自己的内部目标（例如夺取旗帜）。我们使用双层优化处理的方式优化智慧体内部奖励，进而直接获胜，并且运用基于内部奖励的强化学习技术来学习智慧体的游戏策略。
智慧体分别以快速和慢速两种游戏时标操作，这有助于提升它们使用内存和生成一致动作序列的能力。

“为了胜利”（FTW）智慧体的架构示意图，融合快速和慢速两种时标的循环神经网络（RNN），包括一个共享的内存模组，并学习从游戏点到内部奖励的转换。

最终得到的智慧体称为 FTW 智慧体，它们学习以非常高的水准外 CTF 游戏。非常重要的一点是，学到的智慧体策略对地图尺寸、队友数量及队伍其他成员等参数变化需要具强健性。以下，你可以探索一些户外程式环境的游戏（其中 FTW 智慧体相互对抗），也可以探索一些人类和智慧体在室内程式环境一起玩的游戏。

▲ 互动式的 CTF 游戏探索器，具有程序生成的室内和室外两种环境。室外地图上的游戏在 FTW 智慧体之间开展，而室内地图的游戏则是人类和 FTW 智慧体玩家的混合游戏。

我们进行一场包括 40 名人类玩家的游戏比赛，人类玩家和智慧体随机配对，既有可能成为对手，也可能成为队友。

先前的测试比赛，对战双方是人类 CTF 玩家和受过训练的其他人类玩家和智慧体。

FTW 智慧体透过学习变得比强基线方法强大得多，并超过人类玩家的胜率。事实上，针对游戏参与者的调查，智慧体比人类表现出更高的合作性。

▲ 智慧体训练时的性能。新 FTW 智慧体获得比人类玩家和基线方法（Self-play＋RS 和 Self-play）高的 Elo 等级分（对应获胜概率）。

除了评估模型性能，理解这些智慧体的行为及内部表征的复杂度也非常重要。

为了理解智慧体如何表示游戏状态，我们研究智慧体神经网络的触发模式，并绘制在一个平面上。下图中，一群群的点代表游戏各种情景，相邻的点则代表相似的触发模式。我们根据高水准 CTF 游戏状态涂色这些点，包括：智慧体在哪个房间？旗帜的状态如何？可以看到哪些队友和对手？我们观察到颜色相同的点簇，代表的是智慧体以相似的方式表示相似的高水准游戏状态。

▲ 智慧体如何表达游戏世界？根据每个代表神经触发模式的点与其他点的相似程度，绘制出某时刻的神经触发模式示意图：距离越近的两个点触发模式越相似。接着，我们会根据它们在该时刻的情景着色──相同颜色代表相同情景。可看到，这些神经元触发模式组织起来，形成不同颜色的簇，这意味着智慧体确实以一种有规则、有组织的方式表示游戏玩法某些有意义的因素。这些训练后的智慧体甚至展示出直接编码特定情况的人工神经元。

智慧体从未被告知任何有关游戏规则的讯息，它们需要学习 CTF 的基本游戏概念，并发展出有效的直觉。事实上，我们可以发现，某些特定神经元会直接编码最重要的游戏状态（如当智慧体的旗帜被夺走，或智慧体的队友拿到旗帜时，某个神经元就会触发）。论文进一步分析智慧体利用内存和使用视觉注意力机制。

表现与人类相媲美的智慧体

智慧体的游戏表现如何，又如何采取行动？

首先，我们注意到智慧体的反应时间非常短，且攻击十分精准，这或许解释了他们为什么会有如此出色的表现（“攻击”是一种战术行为，能将对手送回出发点）。人类对这些感官输入的处理和反应速度相对慢一些，这是因为人类的生物讯号比智慧体的电子讯号要慢。这有个反应时间测试的例子，可以自己动手试试。

因此，智慧体的卓越表现可能要归功于更快的视觉处理和运动控制能力。然而，透过人为降低攻击的准确率、增加反应时间，我们发现这只是它们取得成功的众多因素之一。更深入的研究中，我们训练了预设 1/4 秒（267 毫秒）延迟的智慧体。也就是说，这些智慧体在观察世界前会有 267 毫秒滞后，这与统计的人类电子游戏玩家反应时间相当。尽管如此，这些反应延迟的智慧体仍然比人类玩家的表现要好：人类玩家的强者在智慧体面前只有 21% 胜率。

▲ 人类玩家在反应延迟的智慧体面前，胜率也很低，这说明即使反应延迟时间与人类相当，智慧体也比人类玩家表现好。除此之外，透过观察人类玩家和反应延迟的智慧体的玩游戏情况，我们可以看到两者发生攻击事件的数目相当，说明这些智慧体在这方面与人类相比并不具优势。

透过无监督学习，我们构建智慧体和人类的原型行为模式，发现智慧体实际上是学到类似人类的行为，例如跟随队友及在对手基地蹲点。

▲ 范例中，经过训练的 3 个智慧体可以自动发现行为。

透过强化学习和种群水准演进，这些行为逐渐出现于训练过程。随着智慧体学会透过更复杂的方式合作，就会逐渐淘汰掉像跟随队友这样的简单行为。

▲ FTW 智慧体种群的训练过程。左上角：30 个智慧体在训练和相互演化的过程中得到的 Elo 等级评分。右上角：这些演化事件的遗传树。底部图片显示在智慧体的训练过程中知识、内部奖励及行为概率的变化情况。

未来的研究

尽管论文重点是 CTF，但我们的工作对科学研究的贡献是通用的，我们非常乐见其他研究者基于我们的技术在各不相同的复杂环境开发相关技术。自从最初发表这些实验结果以来，许多人成功将这些方法扩展到《雷神之锤 III 竞技场》完整游戏，包括专业的游戏地图、更多 CTF 之外的多玩家游戏模式，以及更多道具拾捡和使用动作。初步结果表明，智慧体可在多种游戏模式和多张地图表现出很强的竞争力，并在测试比赛开始逐渐对人类研究者的技能提出挑战。实际上，这项工作提出的一些概念（如基于种群的多智慧体强化学习），构成我们对《星海争霸 II：自由之翼》设计的“AlphaStar agent”智慧体基石。

在另外两个《雷神之锤 III 竞技场》多人游戏模式下的完整版锦标赛地图进行游戏的智慧体：“Future Crossing”地图的收割者模式，以及“Ironwood”地图的单旗夺旗模式。

总结来说，这项工作强调多智慧体训练在推动人工智能发展的潜力：利用多智慧体训练提供的自然学习资讯，同时也能促使我们开发出甚至可与人类合作的强健智慧体。

Capture the Flag: the emergence of complex cooperative agents

（本文由雷锋网授权转载；首图来源：pixabay）

DeepMind 在多智慧体强化学习又有新进展，最新成果登上《Science》

夺旗赛：根据像素做动作决策

表现与人类相媲美的智慧体

未来的研究

热门推荐

日本尺度超大的综艺节目连主持人都大喊“玩这么大可以吗”

2015下半年DMM最强AV女优排名出炉波多野结衣排名仅第三

Facebook、MessengerApp发生大规模闪退故障现象请暂停更新（内有简易修复法）

科学家大乱斗，一起打爆爱因斯坦、霍金、达尔文、图灵、居里夫人与牛顿吧

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太地区仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

英国、香港疫情大爆发！没打疫苗致死率高 31 倍

重训比有氧运动更能改善睡眠品质

国光生技 2 月营收年增 2,489.91%，选株百分百预判 WHO 流感病毒株

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

关于我们

新闻资讯

意见反馈

网站地图