Arena竞技场即将开放，如何训练出OpenAI Five|界面新闻

编译|AI报道

上周末，成功击败Dota世界冠军团队OG的OpenAI Five赢得全球瞩目。更让人惊喜的是，OpenAI Five的Arena竞技场也于今日开放给全世界的玩家体验。

那么，在OpenAI Five取得胜利的背后都发生了哪些故事呢？OpenAI Five又是怎么被创造出来的呢？OpenAI 官方博客近日发布了一篇关于OpenAI Five幕后的解读文章，AI报道将之编译如下。

在上周末Dota 2的决赛中，OpenAI Five连续两场击败了世界冠军OG战队，成为首个在电子竞技比赛中击败世界冠军的人工智能系统。众所周知，OpenAI Five和DeepMind的AlphaStar之前都曾在一些场合击败过优秀的职业选手，但在职业级比赛上还没有赢过。这也是人工智能首次在直播上击败电子竞技专业选手。

通过OpenAI Five在决赛上的绝佳表现，我们也有两个惊喜跟大家分享：

1.尽管我们训练OpenAI Five的过程只专注于去打败其他机器人，但这次我们却发现OpenAI Five其实还具备了与人类成为队友的基本能力，也就意味着我们可以轻而易举地将一个竞争性AI变为合作性AI。这让我们对未来的人工智能系统充满希望，如果我们在这方面更努力更积极的去开发，它将对人类非常有益。

2.从4月18日到21日，我们将扩大OpenAI Five以竞争对手的身份或者以队友的身份在互联网上的运行规模，全世界的玩家都可以体验。这个最后的测试将能回答一个很重要的研究问题——OpenAI Five的最大潜能可以被人类运用到哪个程度，或者在其他哪些方面必定会被打败。这可能是有史以来最大的人工智能部署，让OpenAI Five能够高度胜任一个深度强化学习代理系统，这样人们就可以有意识地与之交互。

为什么会选择Dota

一开始我们研究OpenAI Five是为了解决问题，一个感觉超出了现有的深度强化学习算法能力范围的问题，我们希望通过解决这个当下无法解决的问题去大幅度提高工具的运用能力。我们原以为需要复杂的算法思想（比如分层强化学习），但我们惊讶地发现：对于这个问题，我们需要根本改进是规模，但实现和利用这个规模并不容易。于是这就成为了我们研究工作的主要内容。

OpenAI Five把世界看作是一串必须破译的数字。不管这些数字是以Dota游戏(约20,000个数字)的形式，还是以机械手(约200个)的形式，它们使用相同的通用学习代码。

为了创造OpenAI Five，我们创建了一个名为Rapid的系统，这个系统可以让我们用以前从未有过的规模去运行PPO。然后结果超出了我们最高的预期，我们居然创造出一个不受任何基本性能限制的世界级Dota机器人。

如今，以大量的经验为代价创作出来的RL算法表现出了惊人的能力，但它在游戏或模拟环境之外却是不切实际的。这个限制可能并没有听起来那么糟糕，例如，我们可以使用Rapid来控制机械手灵活地重新移动一个模块，首先完全在模拟中训练，然后在物理机器人上执行。但是我们认为对于RL的下一个挑战就是减少对经验的依赖。

如今虽然我们决定不再让OpenAI Five成为我们的竞争对手，但是社会的进步和技术的发展将继续推动我们未来的工作，这也并不是Dota比赛工作的终点，毕竟我们觉得Dota比赛对于RL开发来说是一个比现在使用的标准环境更有趣、更复杂、更好理解的环境。

计算力

与2018年Dota2国际邀请赛的失利相比，OpenAI Five上周六取得胜利是由于一个重大变化-----计算量训练增加了8倍。在这个项目的前期阶段，我们通过扩大培训规模来推动项目的进一步发展。但是在2018年比赛之后，我们就将我们项目的绝大部分计算用于训练OpenAI Five模型。所以我们增加了计算的规模，我们唯一可用的方法就是延长训练时间。

OpenAI Five的TrueSkill：因为我们已经应用了额外的训练计算，用线来划分主要的系统更改(转向单一信使;将LSTM尺寸增加到4096台;升级到7.20和7.21补丁版本;并开始学习回购)。这个图大致是线性的，这意味着OpenAI Five不断地从额外的计算中获益(注意，这是一个log-log图，因为x轴是计算数据的对数，TrueSkill大致对应于指数级进展)。这张图根据最终游戏规则(1个新式，7.21补丁等等)来评估所有机器人——甚至包括那些以老机器人为训练对象的机器人。这些变化之后的陡坡表明OpenAI Five正在适应这种变化;根据更改的不同，评估可能对以前的版本不公平。

总的来说，OpenAI Five当前版本每天已经训练了800 千万亿次。在10个实时月(国际上的1.5个实时月的时间内大约10,000年)的时间内进行相当于人类大约45,000年时长的Dota游戏训练，也就是平均每天有相当于人类250年的模拟训练。OpenAI Five的最终版本与TI版本相比，有99.9%的胜率。

迁移学习

OpenAI Five目前版本自2018年6月以来一直在持续训练，尽管模型大小和游戏规则发生了变化(包括一些相当大的游戏补丁更新和新实现的功能)。在各种情况下，我们都能够转换模型并继续培训，这对于RL在其他领域的也是一个开放挑战。据我们所知，这是RL第一次使用如此长时间进行训练。

为了实现这一目标，我们将继续从训练参数到重大的架构进行更改，来完善我们的制作工具。

更多英雄

在游戏里，我们看到从5名英雄到18名英雄的训练进度几乎没有放缓，是因为我们会假设同样的情况如果发生在更多的英雄身上会怎样。在国际比赛之后，我们花了很多精力去整合新的英雄。

我们花了几周的时间去训练多达25个英雄的英雄池，将这些英雄带到大约5k MMR(大约是95%Dota玩家的水平)。虽然他们在进步，但他们的学习速度不够快，无法在决赛前达到职业水平。我们还没有时间去探究原因，但是我们将思考范围扩大，发现了模型容量不足，需要更好的匹配来扩展英雄池，还需要更多的训练时间来让新英雄赶上老英雄。想象一下，当其他人都掌握了自己的英雄时，一个人再去学习一个新的英雄是多么困难!

我们相信这些问题是可以从根本上解决的，当然，解决这些问题本身就很有趣。最终版本中有17个英雄，我们删除了巫妖，因为他的能力在Dota 7.20版本中发生了显著的变化。

合作模式

“实际上感觉很好;我的冥界亚龙在某个时刻为我献出了生命。他试图帮助我，心想“我肯定她知道自己在做什么”，但显然我不知道。但是，你知道，他相信我。我和(人类)团队合作时不太明白这一点”——Sheever

在决赛中，我们展示了OpenAI Five和人类进行组队游戏。一组是Sheever，Blitz和三个OpenAI Five，对抗另一个由Capitalist，ODPixel和三个OpenAI Five组成的队伍

OpenAI Five与人类互动的能力为人类与人工智能互动的未来提供了一美好的愿景，在这个愿景中，人工智能系统将协作并增强人类的体验。我们的测试人员说他们能够感觉到他们的机器人队友的支持，他们从与这些先进的系统一起玩中学到了东西，总的来说这是一个有趣的体验。

值得注意的是，OpenAI Five展示了零样本转移学习——它被训练成让所有的英雄都由它自己的副本控制，但是这些泛化为控制英雄的子集，与人类是队友或敌人。我们非常惊讶的是，它竟然能这么有效。事实上，我们考虑过在国际赛场上进行一场合作比赛，当然，我们认为这需要专门的训练。

Arena竞技场

我们将推出OpenAI Five竞技场。这是一个公开实验，任何人都可以在竞争模式和合作模式下体验OpenAI Five。我们的1v1机器人可以通过巧妙的策略加以利用;但我们不知道OpenAI Five在多大程度上可以做到这样，但是我们很高兴邀请社区来帮助我们找到答案!

Arena竞技场将于太平洋标准时间4月18日(星期四)下午6点开放，4月21日(星期日)晚上11点59分关闭。请提前注册账号，这样我们就可以确保您的地区有足够的服务器容量!所有比赛结果将会自动报告给Arena竞技场公众排行榜。

我们非常感谢Dota社区在过去两年中给予我们的所有支持，我们希望Arena竞技场也能作为一种小小的回馈方式。祝大家玩得开心!

等我们回顾完OpenAI Five Arena的成果，我们将会发布更多关于OpenAI Five的技术分析。

之后，我们也将继续选择OpenAI中的dota2环境。在过去的两年里，我们在RL能力方面取得了快速的进展，我们认为dota2将继续帮助我们推进更多创造性的事情——无论是通过更少的数据实现有竞争力的性能，还是真正的人工智能合作。

参考来源：openai.com