谷歌 CEO 桑达尔·皮查伊：Gemini 和即将到来的人工智能时代|界面新闻

编译｜AI新智界

北京时间昨日凌晨，谷歌突然投放了一颗炸弹，发布了下一代人工智能模型 Gemini 的第一阶段，这让整个科技界有些“措手不及”，毕竟上周 The Information 报道称谷歌计划推迟 Gemini 到明年发布。

Gemini 反映了 Google 内部多年来在 CEO 桑达尔·皮查伊（Sundar Pichai）的监督和推动下所做的努力，集合了谷歌几乎所有的 AI 资源。

谷歌现任 CEO 皮查伊曾负责 Chrome 和 Android，他对产品的痴迷是出了名的。在 2016 年担任 CEO 之后的第一封创始人信中，他预测“我们将从移动优先转向 AI 优先的世界。” 从那以后的几年里，皮查伊将 AI 深深地融入到了谷歌的所有产品中，从安卓设备一直到云端。

尽管如此，AI 领域的发展在去年很大程度上是由另一家公司 OpenAI 的 AI 产品定义的。 OpenAI 在去年推出了 DALL-E 和 GPT-3.5，以及今年又推出了 DALL-E 2 和 GPT-4，几乎主导了整个 AI 领域的发展趋势，并引发了初创公司和科技巨头之间的军备竞赛。

谷歌此前推出了基于 LaMDA 大模型的聊天机器人 Bard，以应对 ChatGPT 的竞争。然而，Bard 似乎更多是临时救场，从未能够真正与 ChatGPT（更不用说 GPT4）以及微软基于ChatGPT构建的新Bing 相抗衡。谷歌在生成式 AI 竞争中似乎一直落后于微软，这促使了谷歌决定将 Google Brain 和 DeepMind 两大核心 AI 部门整合为一，即 Google DeepMind。

Gemini 现在成为了这场 AI 竞赛中最新的努力者。它由 Demis Hassabis 领导的 Google DeepMind 构建，将公司的人工智能团队聚集在一个保护伞下。目前用户已经可以在谷歌 Bard 聊天机器人上体验 Gemini，它将在 2024 年整合到公司的产品线中。

在 Gemini 今天正式推出前夕，《麻省理工科技评论》在加利福尼亚州山景城的谷歌办公室采访了谷歌 CEO 桑达尔·皮查伊，讨论了 Gemini 对谷歌及其产品、AI 和社会的意义。

以下文字记录是皮查伊自己的话。为了清晰和可读，对话已被编辑。

《麻省理工科技评论》：Gemini 有哪些令人兴奋之处？你能告诉我你对 AI 的总体看法是什么吗？它的力量、它的实用性以及它如何进入你们公司所有产品？

Sundar Pichai：Gemini 令人兴奋的一个具体部分是它是一个从头开始的原生多模态模型。就像人类一样，它不仅仅是学习文本。它集合了文本、音频、代码编写等能力。因此，该模型天生就具有更强的能力，我认为这将帮助我们梳理出新的功能，并为该领域的进步做出贡献。

另一个令人兴奋的地方是，Gemini Ultra（Gemini的三大版本中最强的版本）在 32 个主要基准测试中的 30 个中处于最先进的水平，尤其是在多模态基准测试中。 MMMU 基准测试的结果显示了这个进展。我个人觉得令人兴奋的是，在作为领先基准之一的 MMMU（大规模多任务语言理解）中，它跨越了 90% 的门槛，这是一个重要的里程碑。两年前最先进的水平是 30-40%。因此，想想这个领域的进展有多大。而人类专家在这 57 个学科的得分是大约 89%。因此 Gemini是第一个跨越这一门槛的模型。

我同样很兴奋的是，Gemini 终于出现在我们的产品中。它将可供开发人员使用。它是一个平台。 AI 是一个意义深远的平台转变，其规模比网络或移动设备还要大。因此，从那一刻起，这也代表着我们迈出了一大步。

让我们聊聊这些基准测试。 Gemini 似乎在几乎所有或大多数方面都领先于 GPT-4，但领先的不是很多。而 GPT-4 刚推出时的领先优势似乎是一个非常大的飞跃。这是否意味着一些大模型技术的能力开始趋于稳定，或者您认为我们将继续拥有这些巨大的增长曲线？

Sundar Pichai：首先，展望未来，我们确实看到了很大的发展空间。一些基准成绩已经很高。你必须意识到，当你试图达到 85% 的目标时，你现在就处于曲线的边缘。所以看起来可能不多，但它正在取得进展。我们也将需要更新的基准。这也是我们研究 MMMU 多模态基准的部分原因。 [对于]其中一些新基准来说，最先进的水平仍然要低得多。未来还有很多进展。缩放法则仍然有效。随着我们将模型变得更大，将会取得更多进展。当我从整体上看时，我真的觉得我们还处于起步阶段。

我对你所认为的 Gemini 的关键突破以及它们将如何应用感兴趣，可以谈谈吗？

Sundar Pichai：人们很难想象将会发生的飞跃。我们会提供 API，人们会以相当深入的方式想象它。

我认为多模态将会很大。当我们教会这些模型更多地进行推理时，就会有越来越大的突破。更深入的突破即将到来。

思考这个问题的一种方法是 Gemini Pro。它在基准测试中表现非常好。但当我们把它放在 Bard 聊天机器人中时，我作为一个用户就能感受到它。我们一直在对其进行测试，所有类别的好感度都有显着上升。这就是为什么我们称其为迄今为止最大的升级之一。当我们进行并排盲评估时，它确实显示出优异的性能。所以你可以让这些更好的模型在基准上得到改进。它取得了进步。我们将继续训练并从那里开始。

但我迫不及待地想将它放入我们的产品中。这些模型非常有能力。实际上设计产品体验以充分利用模型所拥有的所有功能——接下来的几个月将会令人兴奋。

我能想象发布 Gemini 所面临的巨大压力。我很好奇你在 GPT-4 的发布中了解到了什么。你学到了什么？你们做了哪些改变？

Sundar Pichai：有一点，至少对我来说：感觉这离零和游戏还很远，对吧？想想向 AI 的转变有多么深刻，以及我们还处于多么早的阶段。前方充满机遇。

但对于你的具体问题，这是一个我们都在进步的丰富领域。它有科学的成分，也有学术的成分；大量研究被发表，了解像 GPT-4 这样的模型在现实世界中是如何工作的。我们从中吸取了教训。安全是一个重要领域。因此，在 Gemini 中，我们根据模型在现实世界中的运行情况学习并改进了一些安全技术。这显示了微调等各种事情的重要性。我们通过 Med-PaLM 2 展示的内容之一是采用像 PaLM 这样的模型，将其真正微调到特定领域，表明它可以超越最先进的模型。这就是我们了解微调力量的一种方式。

当我们在开发 Gemini 时，其中的很多内容都会被应用。我们花更多时间开发 Gemini Ultra版本（将于明年推出）的部分原因是为了确保我们对其进行严格的安全测试。但我们也在对其进行微调，以真正梳理出其能力。

当你看到其中一些版本发布并且人们开始在现实世界中修改它们时，他们会产生幻觉，或者他们可能会泄露他们的模型所训练的一些私人数据。我想知道，考虑到它所训练的数据，其中有多少是该技术固有的。如果这是不可避免的，您会尝试采取哪些措施来限制这种情况？

Sundar Pichai：你说得对。这些都是活跃的研究领域。事实上，我们刚刚发表了一篇论文，展示了这些模型如何通过一系列提示来揭示训练数据。幻觉不是一个已解决的问题。我认为我们都在这方面取得了进展，而且还有更多的工作要做。我们需要解决一些基本的限制。一个例子是，如果您采用 Gemini Ultra，我们正在积极与使用它的外部第三方（这些领域的专家）对这些模型进行红队合作。

在多模态等领域，我们想要大胆，我们想要负责任。我们将更加谨慎地推出多模态，因为错误用例的可能性更高。

但你是对的，因为它仍然是一项正在进行中的技术，这就是为什么它们不会对所有事情都有意义。这就是为什么在搜索中，我们更加小心如何使用它、何时、何地、在哪里使用它，以及何时触发它。他们拥有这些惊人的能力，但也有明显的缺点。这是我们所有人面临的艰巨工作。

你认为最终这个问题会得到解决吗——幻觉，或者暴露其他训练数据？

Sundar Pichai：以目前的自回归大模型技术，幻觉问题还没有得到解决。但未来的 AI 系统可能与我们今天的系统不同。这是技术的一种版本。这就像人们认为不可能将电脑装进口袋一样。 20年前，有些人确实很固执己见。同样，看着这些系统并说你无法设计更好的系统。我不同意这种观点。已经有许多研究探索正在进行，以思考如何解决这些问题。

您已经谈到这是一个多么深刻的转变。在最后的一些转变中，比如向移动设备的转变，它并不一定会提高生产力，而生产力长期以来一直持平。我认为有人认为这甚至可能加剧收入不平等。谷歌正在开展哪些工作来确保这一转变更广泛地造福于社会？

Sundar Pichai：这是一个非常重要的问题。我在几个层面上思考这个问题。在谷歌，我们一直关注的一件事是：我们如何获得尽可能广泛的技术访问？因此，我认为即使在移动设备的情况下，我们使用 Android 所做的工作，数亿人也无法获得计算访问权限。我们努力推出一款价格实惠的智能手机，价格可能低于 50 美元。

所以让AI对每个人都有帮助是我思考的框架。您尝试向尽可能多的人提供机会。我认为这是其中的一部分。

我们正在深入思考将其应用到可以造福人们的用例中。例如，我们早期进行洪水预报的原因是因为我们意识到 AI 可以检测模式并做得很好。我们用它来翻译 1,000 种语言。我们现在确实正在尝试以其他语言提供内容，否则您将无法访问这些内容。

这并不能解决你所说的所有问题。但要深思熟虑何时何地，你要关注什么样的问题——我们一直关注这一点。以 AlphaFold 等区域为例。我们为世界各地的病毒提供了开放的数据库。但是……谁先使用它？哪里有卖？ AI 不会神奇地让不平等等一些更困难的问题变得更好；它可能会加剧这种情况。

但重要的是确保每个人都可以使用这些技术。你要尽早开发它，让人们有机会参与对话，以便社会能够思考它并适应它。

我们肯定比其他技术公司更早地参与这项技术。你知道，最近的英国 AI 安全论坛或美国国会和政府的工作。我们正在尝试建立更多的公私合作伙伴关系，尽早吸引非营利组织和学术机构。

对就业等领域的影响需要深入研究，但我确实认为会有惊喜。会有令人惊讶的正外部性，也会有负外部性。解决负外部性的任务比任何一家公司都大。这是社会所有利益相关者的角色。所以我没有简单的答案。

我可以举出很多例子来说明移动设备带来的好处。我们已经在糖尿病视网膜病变等领域展示了这一点。世界许多地方没有足够的医生来检测它。

就像我觉得让世界各地的人们访问谷歌搜索会产生积极的影响一样，我认为这就是考虑扩大 AI 访问的方式。

有些事情显然会提高人们的生产力。编程就是一个很好的例子。然而，这项技术的民主化正是威胁就业的因素。即使你没有找到社会的所有答案——而且一家公司也没有责任解决社会问题——一家公司也可以推出一种可以极大改变世界并产生深远影响的产品。

Sundar Pichai：我们从未提供面部识别 API。但人们构建了 API，技术也在不断向前发展。所以它也不在任何一家公司的手中。技术将向前发展。

我认为答案比这更复杂。社会也可能落后。如果您不采用这些技术，可能会影响您的经济竞争力。你可能会失去更多工作。

我认为正确的答案是负责任地部署技术并取得进展，并考虑可能造成不成比例伤害的领域，并努力减轻伤害。将会出现更新类型的工作。如果你看看过去 50、60 年，麻省理工学院经济学家的研究表明，大部分创造的新就业机会都出现在自那时以来出现的新领域。

将会创造出新的就业机会。有些工作会变得更好，一些重复性的工作会被解放出来，让你可以更有创意地表达自己。你可以是一名医生，你可以是一名放射科医生，你可以是一名程序员。你花在日常任务上的时间与高阶思维的时间——所有这些都可能改变，让工作变得更有意义。还有一些工作可能会被取代。那么，作为一个社会，如何对人们进行再培训、增加技能和创造机会呢？

去年，人们对 AI 的看法确实出现了哲学分歧。有人认为安全第一，有人认为业务用例第一，有加速主义者，也有毁灭论者。你所处的位置必须将所有这些哲学联系起来并将其整合在一起。我想知道您个人对于尝试将谷歌的这些利益与这个新世界联系起来有何看法，谷歌将成为该领域的领导者。

Sundar Pichai：我是一个技术乐观主义者。基于我的个人生活，我一直感受到对人和人性的信念。总的来说，我认为人类将利用技术来谋取利益。所以我一直是个乐观主义者。你是对的：像 AI 这样强大的技术，它具有二元性。

这意味着有时我们会大胆前进，因为我认为我们可以推动最先进的技术。例如，如果 AI 可以帮助我们解决癌症或气候变化等问题，你会想尽一切努力快速前进。但你肯定需要社会制定适应框架，无论是深度伪造还是工作岗位转移等。这将是一个前沿——与气候变化没有什么不同。这将是我们未来十年要努力解决的最重要的事情之一。

另一件悬而未决的大事是 AI 的法律环境。存在关于合理使用的问题，关于能否保护输出的问题。这对于知识产权来说似乎是一件大事。您如何告诉使用您产品的人，让他们有安全感，让他们知道他们所做的事情不会让他们被起诉？

Sundar Pichai：这些并不是所有话题都能轻易得到答案。当我们构建搜索和 YouTube 等产品时，我们一直在努力实现正确的价值交换。对于 AI 来说也没有什么不同。我们绝对致力于确保我们能够根据法律允许的数据进行训练，并让人们有机会选择退出训练。然后还有一层关于这一点——关于什么是合理使用。为原创内容的创作者创造价值非常重要。这些都是重要的领域。互联网就是一个例子。或者当电子商务开始时：如何划分电子商务和常规商务之间的界限？

随着时间的推移，将会制定新的法律框架，我想这就是随着这个领域的发展我会如何看待它。但与此同时，我们将努力站在法律的正确一边，并确保我们与当今的许多内容提供商建立深厚的关系。在某些领域存在争议，但我们正在努力解决这些问题，我致力于解决这个问题。我们必须创建双赢的生态系统，让所有这些都能随着时间的推移而发挥作用。

人们现在对网络非常担心的是搜索的未来。当您拥有一种可以根据网络上的信息为您解答问题的技术时，人们可能不再需要访问这些网站。这似乎也可能对谷歌产生影响。我还想知道您是否从自己的业务角度来考虑这个问题。

Sundar Pichai：我们在搜索领域的独特价值主张之一是，我们帮助用户发现和学习新事物、找到答案，但始终着眼于与他们分享网络上存在的丰富性和多样性。即使我们正在经历搜索生成体验之旅，这也是事实。这是我们开发产品的重要原则。我不认为人们总是在搜索中说：“帮我回答一下吧。” 可能有一两个问题是你想要的，但即使你回来了，你也会学到更多，甚至在这段旅程中，会更深入。我们始终希望确保我们做对了。我认为这不会改变。重要的是我们要在那里取得平衡。

同样，如果你深入地交付价值，那么你所交付的东西就具有商业价值。从桌面到移动设备，我们都遇到过类似的问题。这对我们来说并不新鲜。根据我们所看到的一切以及用户对高质量广告的反应，我感到很舒服。 YouTube 是我们开发订阅模式的一个很好的例子。这也起到了很好的作用。

您认为明年，随着这些产品开始真正进入市场并开始互动，人们的体验将会发生怎样的变化？他们的经历会发生怎样的改变？

Sundar Pichai：我认为一年后，任何在 Google Docs 中开始做某事的人都会期待一些不同的东西。如果你把这些产品给用户使用，然后让他们放回到我们拥有的 Google 文档版本中，比如说，到 2022 年，他们会发现它已经过时了。就像，对于我的孩子来说，如果他们没有拼写检查，他们从根本上会认为它坏了。你和我可能还记得在拼写检查之前使用这些产品的感觉。但我们比任何其他公司都在搜索中融入了如此多的AI，人们认为这是理所当然的。这是我随着时间的推移学到的一件事。他们认为这是理所当然的。

就人们可以做的新事情而言，随着我们开发多模式功能，人们将能够以以前无法完成的方式完成更复杂的任务。并且会有更强大的实际用例。

参考资料：

https://www.technologyreview.com/2023/12/06/1084539/google-ceo-sundar-pichai-on-gemini-and-the-coming-age-of-ai/