DeepMind 论文揭示最强 AlphaGo Zero，不靠人类知识进化成长 04月30日更新

AlphaGo“退役”了，但 DeepMind 探索围棋并没有停止。今年 5 月乌镇大会的“人机对弈”，中国棋手、世界冠军柯洁九段以 0 比 3 不敌 AlphaGo。随后 DeepMind 创始人 Hassabis 宣布，AlphaGo 将永久结束竞技舞台，不再比赛。同时 Hassbis 表示：“我们计划在今年稍晚发表最后一篇论文，详细介绍我们在算法效率取得的进展，以及应用在其他更领域的可能性。就像第一篇 AlphaGo 论文，我们希望更多开发者接过棒子，利用这些全新的进展开发属于自己的强大围棋程式。”

今天，DeepMind 如约在《Nature》发表这篇论文──名为《Mastering the game of Go without human knowledge》（不使用人类知识掌握围棋），DeepMind 展示了更强大的新版本围棋程式“AlphaGo Zero”，验证了即使像围棋这最具挑战性的领域，也可以透过纯强化学习的方法自我完善达到目的。

摘要：人工智能的长期目标是透过后天的自主学习（注：tabula rasa，意为“白板”，指所有的知识都是逐渐从感官和经验而来），在一个具挑战性的领域创造出超越人类的精通程度学习的算法。之前，AlphaGo 成为首个战胜人类围棋世界冠军的程式，当时 AlphaGo 透过深层神经网络下决策，并使用人类专家的下棋资料进行监督学习，同时也透过自我对弈强化学习。这篇论文，我们将介绍一种仅基于强化学习的算法，而不使用人类的资料、指导或规则以外的领域知识。AlphaGo 成为自己的老师，这神经网络训练用于预测 AlphaGo 自己的落子选择，提高了树搜寻的强度，使落子品质更高，具更强的自我对弈更新能力。从一块白板开始，我们的新程式 AlphaGo Zero 表现惊人，并以 100：0 击败了之前版本的 AlphaGo。

全新强化学习算法：无需任何人类指导

这篇论文的最大亮点，在于无需任何人类指导，透过全新的强化学习方式成为自己的老师，在围棋这最具挑战性的领域达到超过人类的精通程度。相比之前使用人类对弈资料，此算法训练时间更短，仅用 3 天就达到击败李世乭的 AlphaGo Lee 水准，21 天达到之前击败柯洁的 AlphaGo Master 水准。

3 天内──就是 AlphaGo Zero 击败 AlphaGo Lee 之前，曾进行 490 万次自我对弈练习。相比之下，AlphaGo Lee 的训练时间达数月之久。AlphaGo Zero 不仅发现人类数千年来已有的许多围棋策略，还设计了人类玩家未知的策略。

据 DeepMind 部落格介绍，AlphaGo Zero 采用新的强化学习方法，从一个不知道围棋游戏规则的神经网络开始，然后透过将这个神经网络与强大的搜寻算法结合，就开始自我对弈了。训练过程中，神经网络更新和调整，并用于预测下一步落子和最终的输赢。

更新后的神经网络再度与搜寻算法组合，过程不断重复，建立出一个新的、更强大版本的 AlphaGo Zero。每次更新，系统的效能和自我对弈的品质均能部分提高。“日拱一卒，功不唐捐”，最终的神经网络越来越精确，AlphaGo Zero 也变得更强。

Alpha Zero 与之前版本有如下不同：

AlphaGo Zero 只使用棋盘上的黑子和白子输入，之前版本 AlphaGo 的输入均包含部分人工特征。
AlphaGo Zero 使用一个神经网络而不是之前的两个。以前版本的 AlphaGo 使用一个“策略网络”选落子位置，并使用另一个“价值网络”预测游戏的输赢结果。而 AlphaGo Zero 下一步落子的位置和输赢评估在同一个神经网络进行，进而使其更准确训练和评估。
AlphaGo Zero 无需随机推演（Rollout）──这是一种在其他围棋程式广泛用于胜负的快速随机策略，透过比对确定每手之后输赢的概率选择最佳落子位置，相反地，它依赖高品质的神经网络来评估落子位置。

上述差异均有助提高系统的效能和通用性，但最关键的仍是算法的改进，不仅使 AlphaGo Zero 更强大，功耗上也更高效。

▲ AlphaGo 不同版本所需的 GPU / TPU 资源。

技术细节

新方法使用一个具参数 θ 的深层神经网络 fθ。这个神经网络将棋子的位置和历史状态 s 为输入，并输出下一步落子位置的概率，用 (p, v) = fθ(s) 表示。落子位置概率向量 p 代表每步棋（包括不应手）的概率，数值 v 是一个纯量估值，代表棋手下在目前位置 s 的获胜概率。

AlphaGo Zero 的神经网络透过新的自我对弈资料训练，在每个位置 s，神经网络 fθ 都会进行蒙地卡罗树（MCTS）搜寻，得出每步落子的概率 π。落子概率通常优于初始的落子概率向量 p，在自我对弈过程中，程式透过基于蒙地卡罗树的策略来选下一步，并使用获胜者 z 为价值样本，可视为一个强有力的评估策略作业。过程中神经网络参数不断更新，落子概率和价值 (p,v)= fθ(s) 也越来越接近改善后的搜寻概率和自我对弈胜者 (π, z)，这些新的参数也会用于下次自我对弈更新以增强搜寻结果，下图即为自我训练的流程图。

▲ AlphaGo Zero 自我对弈训练的流程示意图。

虽然这技术还算早期阶段，但 AlphaGo Zero 的突破使我们未来面对人类一些重大挑战（如蛋白质折叠、减少能源消耗、搜寻革命性的新材料等）充满信心。众所周知，深度学习需要大量资料，在很多情况下，获得大量人类资料的成本过于高昂，甚至根本难以获得。如果将该技术应用到其他问题，有可能对我们的生活产生根本性的影响。

AlphaGo Zero: Learning from scratch

（本文由雷锋网授权转载；首图来源：影片截图）

DeepMind 论文揭示最强 AlphaGo Zero，不靠人类知识进化成长

全新强化学习算法：无需任何人类指导

技术细节

热门推荐

日本尺度超大的综艺节目连主持人都大喊“玩这么大可以吗”

2015下半年DMM最强AV女优排名出炉波多野结衣排名仅第三

Facebook、MessengerApp发生大规模闪退故障现象请暂停更新（内有简易修复法）

科学家大乱斗，一起打爆爱因斯坦、霍金、达尔文、图灵、居里夫人与牛顿吧

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太地区仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

英国、香港疫情大爆发！没打疫苗致死率高 31 倍

重训比有氧运动更能改善睡眠品质

国光生技 2 月营收年增 2,489.91%，选株百分百预判 WHO 流感病毒株

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

关于我们

新闻资讯

意见反馈

网站地图