文 | AI说
近日,人工智能在游戏业界又搞出了一个“大新闻”:人工智能OpenAI Five在时下大火的竞技游戏“Dota2”里开设了竞技场擂台,玩家可以自行组建队伍去挑战它!这吸引了大量的主播和高玩组队挑战,但这个人工智能出乎意料的强大,在三天的测试期内,战绩为4409胜41负!
胜率99.1%,两个字:碾压。
就在上周,OpenAI Five还和2018国际Dota2邀请赛(TI8)冠军OG战队打了一场表演赛,2:0完胜。而一年前,OpenAI Five还只能和半职业的队伍打得有来有回。
这一年发生了什么?OpenAI Five又是怎么来的?这篇文章也许能给你答案。
OpenAI Five的起源
OpenAI Five的诞生,与“现实版钢铁侠”科技狂人马斯克有关。
2015年12月,马斯克与硅谷知名创业孵化器Y Combinator的总裁萨姆·奥尔特曼共同成立了非营利性AI技术研发组织OpenAI,并宣布将会以“推动AI技术造福人类”为己任,通过向社会无偿分享自己的AI技术,来规避由于科技巨头垄断AI技术而导致的潜在威胁因素。很快,这一组织就拿到了包括两位创始人在内的,共计超10亿美元的预期投资额。但三年之后,马斯克宣布辞任OpenAI董事会职务,这都是后话了。
(OpenAI成立,创始人们在学习机器上签名)
成立后不久,公司CTO Greg Brockman就为OpenAI设立了核心的技术研发方向:从强化学习(Reinforcement Learning)入手,最终实现无监督学习(UnsupervisedLearning)。
“强化学习”是机器学习领域的一个历史久远的技术分支,旨在让AI通过对未知环境的探索,来自行求得最优解。通过与深度学习相结合,这一技术能让AI快速掌握获取最优解的要领,我们所熟知的AlphaGo就是将“深度强化学习”运用到极致的佼佼者。
而“无监督学习”则更多的是指代一种在AI领域的通用概念,即:无需人工辅助对数据进行标记,即可自行理解数据含义并进行归纳总结的能力。从业内已公开的技术发展情况来看,目前研究还只能达到有效率地执行半监督学习(semi-supervised learning)阶段。
(OpenAI研发的智能机械手臂)
虽然在成立之初,OpenAI首席科学家Ilya Sutskever就曾明确表示过,OpenAI最核心的任务是发表有影响力的研究报告,但其实OpenAI更多的是在发力构建其开源开发平台。截至目前,OpenAI已经迭代推出了4款开源软件平台:
第一款名为Gym。这是一个用于研发和比较强化学习算法优劣的工具包,在2016年4月首次发布。开发者可以利用这一工具对自己开发的AI算法进行训练并展示,从而获得与其他平台开发者共同探讨和研究的机会;
第二款名为Universe。这是一个用于训练“解决通用问题的AI”的基础开发架构,在2016年12月首次发布。这一架构中包含了近千种AI训练环境,开发者可以利用这一工具将任何程序转换到Gym的环境下并进行训练。所以这款软件平台,也可以说是为Gym打开了一个万能的接口;
第三款名为Roboschool。这是一个用于模拟机器人控制训练的开源软件,在2017年5月首次发布。这一软件再度整合了Gym平台,可以视为是专门针对“机器人”这个应用领域单独开设的免费训练平台;
第四款名为Blocksparse。这是一个用于优化GPU神经网络运行效率的工具包,在2017年12月首次发布。这一软件主要是利用了数值分析中稀疏矩阵(Sparse matrix)的特性,通过减少不必要的运算量,来实现优化记忆神经网络的目的。
OpenAI Five的电竞缘分:无心插柳柳成荫
早在2016年,本来是用于机器人算法的OpenAI就瞄向了当时在Twitch上大火的竞技游戏Dota2,最关键的是该游戏本地支持Linux,且有可开源的API接口,这对于团队开发无疑是巨大的便利。
(热门竞技游戏Dota2)
OpenAI的首次亮相是在2017年的dota2国际邀请赛上(TI7)——Dota2乃至于整个电竞业最有影响力的赛事,OpenAI以娱乐赛的方式与当时的人气选手Dendi进行了一场1v1的单挑对决,最终结果是OpenAI战胜了Dendi。这为Dota2赛事带来了话题度,也让科技圈认识到OpenAI的技术进步。到2018年6月,OpenAI的能力已经扩大到完整的五人团队——OpenAI Five,并且可以击败业余和半职业玩家的队伍。又过去一年,就有了文章开头的那一幕。
(Dendi单挑OpenAI)
也有人会觉得,人工智能打游戏本来就有先天优势,那么OpenAI模拟Dota2难在哪里?
我们要先明确一件事,“人工智能”和“电脑玩家”是两个概念,后者只能遵循事先设定好的程序来行动,即使是新手,只要摸清了“电脑玩家”的行动模式,也能把对面玩的团团转,人工智能则不然。
Dota2是一款集操作与策略于一体的游戏,涉及对线、补刀、Gank、TP支援、团战等众多决策,而每一项决策又要对应非常复杂的操作。AI需要控制5名英雄,而每场游戏平均会产生80000帧的场景,要求AI具备很长的时间线、部分观察状态、高维连续动作空间和高维连续观察空间。
人们会不可避免地将OpenAI与AlphaGo作对比,实际上,国际象棋和围棋的棋盘分别是8x8和19x19,最多也就361个元素,而Open AI从运算数量和速度上来看都远远超过了下围棋的阿法狗。其训练模型也是最复杂的,它使用了256个V100 GPU和12800个CPU训练模型,每个网络都包含一个单层,每个单层又包含1024个单元的LSTM(长短记忆网络),通过dota2开发人员的API来提取当前游戏状态。
OpenAI的训练很特别,它80%的时间都在自我博弈,20%的时间在和旧版本对弈,折算成人类的训练时长,相当于180年,这也是它进步神速的原因之一。
AI在游戏里真的已经所向披靡了吗?
OpenAI Five的话题性,也引发了很多讨论,比如人工智能是否真的全面碾压了人类选手,这是否让电竞项目的观赏性开始打折扣?
其实,OpenAI Five这次的测试,还是有一定的局限性在。比如对战双方只能在17位英雄里选择,而不是正常dota2比赛的数百位英雄,并且有很多额外的规定,比如禁用道具。不少输给OpenAI Five的玩家也表示,和OpenAI Five对战的感觉并不像真实的dota2对战。总之,玩家想表达的就是OpenAI Five是赢在反应速度和人类无法完成的团队配合上,而不是策略。
(OpenAI团队与OG战队合影)
虽然OpenAI已经将系统的反应时间设定为0.2s(接近职业选手的反应),但是在错综复杂的团战中,每一次决策都保持在这个水准就是一件很恐怖的事情了。打个比方,足球比赛中,如果AI机器人在禁区某个区域的射门准确率达到100%,遵循最优解原则,AI一定是倾向于把球带向这个位置然后得分,那人类破解的办法就是破坏AI机器人在这个区域起脚的机会,但这种感觉显然与真实的对战差异很大。
所以也有玩家认为,OpenAI在游戏里给人的感觉像一个大型网游,而非真实的对手。那41次人类的胜利,正是人类玩家见招拆招的成果。事实也是如此,前仆后继的挑战者发现了AI的行为其实是有迹可循的,钻研出一套特别的阵容,特别的打法,最终获得胜利,说明OpenAI仍然有很大的提升空间。
近年来,人工智能和电竞游戏的结缘次数越来越多。比如,DeepMind旗下的阿尔法星,曾战胜过国际象棋冠军,它跨界登上了经典即时战略游戏《星际争霸2》的舞台,并在与人类的对战中取得压倒性胜利。在近日的高通人工智能开放日上,高通宣布将与vivo、腾讯一道联手打造《王者荣耀》AI电竞战队。
让人工智能打游戏绝非仅仅为了好玩和话题度,比尔盖茨就曾评论,Dota 2机器人展示了团队合作和协作,这将是未来发展的关键技能。据报道,OpenAI下一步将挑战更复杂的人机游戏。与人类在策略、判断领域的竞赛,恰恰是证明AI技术发展的一大舞台,以此为基础,人工智能会在其他领域衍生出更多的可能性。
评论