【JMedia】完整复盘首局人机大战：一场胜负已定的游戏|界面新闻

作者：赵赛坡

北京时间3月9日15时32分，经过三个半小时的鏖战，李世石九段完败于「远道而来」的Alpha Go。

比赛开始后，李世石选择了比较开放性但并不会体验出特别优势的下法。古力对此评价说，李世石可能认为樊麾棋风偏软，所以很容易被电脑把控。所以他想一开始就强硬一点。但李开复认为，李世石尝试了一些新的打法，但这是不明确的，稳健的打法比铤而走险更明智。AlphaGo前一个小时的表现非常惊艳，得到了专业棋手的认可，但同时也有一些走法很难做出判断。后来，AlphaGo出现了一次严重错误。而李世石越下越顺，在棋盘左下角出现了巨大优势，但后来心理出现了波动，出现一些明显的失误，而AlphaGo却迎头赶上，并下出了一个致胜招，此后李世石在正面交锋上节节败退，最终输掉了比赛。纵观整场比赛，AlphaGo基本没有错棋，但人类棋手值得争议的东西很多。

这场人类对机器在围棋领域的较量或许将成为最后一次公平的较量。因为从一开始，这就是一场胜负已定的游戏。

机器征服围棋的历程从未停止

比赛的具体细节并非本文讨论内容。很多人将这场比赛与1997年卡斯帕洛夫与深蓝比赛相提并论。不过就在两年之前，开发了当时世界上最先进围棋系统的Rémi Coulom曾预言，机器打败人类顶尖围棋选手的时间至少还要10年。但真实的速度要远远快于这个预期。在《Science》杂志的描述的时间线里，机器征服围棋的过程与攻占象棋的战役几乎延续了同样的模式：

2015年最后几个月，Google DeepMind就开始与Facebook展开破解围棋的竞赛。2016年1月中旬，被问及谷歌是否已经秘密打败围棋高手时，Facebook人工智能实验室负责人Yann LeCun说这不可能。

所谓不可能正是因为围棋太复杂了。国际象棋平均每一步有大约35种可能的下法，围棋则多达250种，每一种下法之后又有250种下法，以此类推。这意味着，哪怕是最强大的超级计算机也无法预测每一种可能下法的最终结果，因为这实在是个复杂到无法想象的计算过程，即便是现在最强大的计算机处理能力，也无法快速完成这一计算任务。

对Alpha Go来说，要想掌握围棋，需要不断实践练习，同样需要识别棋子布局中微妙模式的巧妙本事。

DeepMind为Alpha Go准备了两种不同的神经网络，类似于它的两个大脑。第一种叫做政策网络（policy network），用来预测下一步；第二种叫做价值网络（value network），用来预测棋盘上不同的分布会带来什么不同的结果。Alpha Go使用它们的方法是，把非常复杂的搜索树减少到可操作的规模。所以，它并不是在每一步都要考虑几百种步数，而只考虑政策网络提供的几十种最有前景的步法，价值网络的作用是减少搜索的深度，所以，它的搜索深度并不是特别深，它并不是一下子搜索出直达比赛末尾的300多步，而是搜索更少的步数，比如20多步，并评估这些位置，而不是一路评估到底，看谁最终能赢。搜索并不是靠蛮力，而是与某种与想象力很相似的东西。

在今天比赛中，经过猜先，第一局李世石执黑先行，而从比赛一开始，李世石似乎就陷入了困难。围棋世界冠军古力表示，从目前的局面来看，谷歌AlphaGo的落子和人类棋手的落子几乎没有区别，「可以看出水平确实绝非一般」，从比赛来看根本看不出来是人和机器在对战，完全就像是两个顶尖棋手之间的对决。

类似的反应也出现在Alpha Go战胜欧洲冠军樊麾的比赛中，国际围棋联合会的秘书长Hajin Lee承认自己被比赛进程震惊了：「当我看到这场比赛时，我非常震惊，因为计算机（Alpha Go）下得就像是人在下棋一样。如果你不告诉我，我可能无法区分出来哪些是计算机走的棋。」

另一方面，机器攻克围棋在技术上意义要远大于其社会意义。曾经用于深蓝的传统的AI算法，比如暴力算法（brute-force）根本无法应对围棋。过去很长一段时间内，机器在围棋领域与人类交手多次，但结果并不乐观（如下图）。从社会层面来看，欧美国家普通大众对于围棋的认知远远不及东亚三国，这也部分导致此次比赛人机大战的媒体风向几乎被中国（围棋起源国）、韩国（李世石九段的祖国）、英国（DeepMind总部位于伦敦）三国媒体所左右，对此英国曼彻斯特大学计算机科学教授，IEEE会士史蒂夫·弗伯接受《科学人》采访时承认：「然而，至少在西方，国际象棋一直代表着智力挑战的最高水平，因此大众对于AlphaGo围棋比赛的关注度可能反不及当年的深蓝。」

从Alpha Go到Beta Go

曾被机器深蓝打败的卡斯帕洛夫几天前也在在《新科学家》网站撰文告诫世人：「计算机擅长完美计算，我们的大脑则擅长通用的（generalities）、长期计划，将通用主题适用于新情况。当人类和机器势均力敌时，这种对比让人类和机器对弈变得有趣起来，就像20年前的象棋，当然，也像今天的围棋一样。」

与19年前所不同的是，打败卡斯帕洛夫的深蓝并未真正成为IBM的核心产品。这个在1997年5月完成惊艳亮相的计算机随即在9月宣布「退役」，撇开期间的种种争议不谈。但Google 显然不会对Alpha Go「轻言放弃」。2014年初，Google巨资收购DeepMind。一年后的2015年1月，DeepMind在《Nature》发表论文，展现了他们如何训练人工智能成为玩游戏的高手。

Demis Hassabis在Google Zeitgeistminds的演讲视频：

围棋的确也只是一门游戏，有独特且唯一的规则。华盛顿大学计算机教授、艾伦基金会人工智能总监Oren Etzioni这样说道，「围棋只是个游戏....你可以知道谁获胜谁失败。」但现实世界的复杂性远远超过游戏设置的难度，Etzioni以美国推翻利比亚卡扎菲政府为例，「那机器能不能告诉我，我们在利比亚是胜利还是失败？」

但 Hassabis或者Google的野心绝不仅仅局限在围棋上。由于DeepMind采用通用的AI技术来研发AlphaGo，其关键算法能够较快应用与其他领域。 Hassabis表示同样的算法可以武装到机器人身上，换句话说，让机器人像游戏中的算法那样学习现实世界的环境，并适时做出调整。 Hassabis更是大胆的预计，Alpha Go或许也将能开启一个新的研究方法，利用这种方法，机器能够快速识别出哪些领域具有研究的潜力，从而帮助人类研究者更好地找到研究方向。

曼彻斯特大学的计算机科学教授，IEEE高级会员凯文·柯伦也认同 Hassabis 预计：「AlphaGo可以应用在许多领域，包括解决对抗性问题，或者应用到一些能被视作竞赛的、策略起到重大影响的领域，包括商业、战争或金融交易......由于AlphaGo可以处理大量数据，并且能更快地为科学家带来有助于科研突破的深刻洞见，AlphaGo可能推进科研进度，与科学家携手合作，投入有希望产出研究硕果的领域。」

鉴于深度学习已经在现实世界取得重大进展，从图像识别、语音识别再到自然语言处理，深度神经网络为这些「古老」技术带来新生。因此 Hassabis的上述表态并非痴人说梦，而更具体或短期的应用则是，帮助智能手机识别图像和语音并进行语言翻译，还能让智能手机理解不同语言，这项技术对于Google布局移动互联网具有重要意义，同时也将树立虚拟助理产品的新标杆，是的，我们可以忘记Siri了。

这场五番旗的比赛背后，既是一场商业公关秀，也是一场技术测试秀，当然，公众也看到了人类在人工智能面前的无奈，补充三个细节：

- 当Alpha Go逼的李世石无法贴目时，李世石脸上显出沮丧；

- 中国围棋对总教练俞斌直言：Alpha Go出现的两个失误加起来都比李世石的失误小得多。

- 古力认为，李世石在明天第二盘还有获胜的可能。

阅读更多有关科技的内容，请点击查看>>。

谷歌AlphaGo首盘赢下李世石，人工智能真的不可战胜还是一个伪命题？我是徐晨，欢迎来辩>>。

来源：机器之心

原标题：重磅：人机大战首局复盘：一场胜负已定的游戏

最新更新时间：03/10 08:25