谷歌和OpenAI联合发布五条AI定律：如何有效约束AI？|界面新闻

听说了吗？前些日子逃跑的俄罗斯机器人又再次出逃了，并且这次实验室不打算再姑息，要将它进行肢解。这表面上是件很好笑的事，但在玩笑的同时，我们是不是该深度思考一下：现在机器人已经能自己出逃了，将来还会做出什么事呢？

早在AI概念的提出之前，人们就对那种强大的、有着金属身躯和超高智商的机器人表达出了自己的恐惧，这些从一些早期的电影中就能够看出端倪。不少科学家和知名人士都曾对此发表自己的看法和预想的解决措施。就在近日，谷歌和OpenAI也联合发布了五条AI定律，旨在为AI提供一个有效的行为约束，以使其不会在有意或无意中做出危害人类的事情。

谷歌和OpenAI联合发布的五条AI定律

谷歌和OpenAI一直在“避免机器人伤害人类”的道路上摸索前进，日前，他们联合宣布了一条由谷歌、OpenAI、伯克利和斯坦福的学者共同进行的研究，其中包含了对AI的五条定律，部分翻译如下：

尽管AI可能面临的安全风险已经引起了公众的注意，但是目前大多数相关的讨论都显得过于理想化和理论化。我们相信在机器学习领域将相关的研究尽快落地是非常必要的，因此我们开始研究实际可行的可将AI系统用安全可靠的手段建立起来的方法。

我们列出了我们认为在一般情况下对AI而言非常重要的五个问题——都是一些比较前卫的思考和长期的研究方向。在目前来看它们的意义比较小，但是在未来的系统中它们会发挥重要作用。

避免负面影响：我们如何避免AI在试图达到目标时对环境做出有负面影响的举动？比如避免扫地机器人为了更快的打扫地面而径直推翻（而不是绕过去）一个花瓶。

避免对奖励条件的非法解读：我们如何避免AI通过篡改测量值等手段在奖励函数上玩花样？比如我们不希望这个扫地机器人只是找个东西把脏东西盖起来让自己看不见它，就认为自己已经扫干净了地面。

可扩展的监管：我们如何有效保证AI系统对那些在系统中不方便太过频繁的评估的物体做出适当的反应？比如，如果机器人需要从人那里获得训练结果的反馈，那它就需要有有效的利用这条反馈的能力（而不能像普通的训练那样不停的核对训练结果），因为不停的问一个人问题是很烦人的。

环境探索的安全性：我们如何有效的保证AI系统评估环境的时候不会造成太过负面的影响？比如，一个扫地机器人可能会需要进行建立拖地策略的实验来作为以后工作的依据。但是很显然它无论怎么实验，也不应该尝试把湿拖把插进插座中。

分配转变的稳定性：我们如何保证AI系统处在与训练环境完全不同的环境时认知和行为的稳定性？比如，启发式算法让机器在在工厂中学到的行为可能在一个办公室中就会显得不那么安全。

不够成熟的阿西莫夫定律

前面说过，包括霍金在内的不少知名人士都曾发表过AI可能毁灭人类、造成人类灭亡的观点。也有人曾探索过限制AI随意发展的各种可能性。其中最著名的是科幻作家阿西莫夫于1950年提出的“机器人三定律”（AI概念由约翰·麦卡锡于1955年首次提出）：

第一定律：机器人不得伤害人类，或坐视人类受到伤害。

第二定律：机器人必须服从人类的命令，除非与第一定律冲突

第三定律：在不违背第一定律和第二定律的情况下，机器人必须保护自己。

根据阿西莫夫自己的构想：只要把这三项定律写入机器人的代码底层，确保机器人无论如何都无法违反，就能保证人类不被机器人所伤害。

但是，让我们以现在的眼光来重新看待这三条定律，首当其冲的一个问题就是技术的欠缺，对于如何将之写进代码底层，当前的技术对此还是毫无头绪的，而且到目前为止，人类造出的机器人还不能够完全理解这三条定律的意思，这两个绝对是目前AI领域的硬伤。

其次，除了技术不达标之外，这三条定律的表达还是有些模糊的，比如一个最简单的例子：一个劫匪正在对他人进行抢劫，这时候的机器人基于“不得伤害人类”的要求不能对劫匪实施伤害，但又不能“坐视人类受到伤害”，这时候就会出现一个矛盾的状况，那机器人应该如何做呢？

将之与AI五定律来进行对比的话，阿西莫夫的的“机器人三定律”明显不够成熟、全面。

AI五定律的重要性

早在机器人概念还不够清晰的时候，人们就已经感受到了他们的威胁，比如1984年的《终结者》电影中机器人对人类步步紧逼的追杀，2004年的《I，Robot》中高智能大脑Wiki自我进化后对人类的限制以及威胁……这些电影中反映的无一不是当时人们对机器人的恐惧，哪怕是比那时先进不少的当今，仍然有人认为AI是极具威胁的，比如特斯拉CEO Elon Musk和霍金等人。

此外，在AI的安全性上，谷歌早就开始了相关的研究开发，并发布过一篇论文，设计了一个用于紧急停止算法运行的开关，并且确保开关的效果不会被算法阻止，这个开关属于事后防范的应急措施。而现在谷歌联合多家机构一起制定的这套新的规则的目的则是为了从源头——设计层面防止AI做出有害的事情。