GPT-4震撼空降，谷歌“紧追”微软有点难|界面新闻

文 | 另镜刘雨婷

编辑 | 陈彦旭

海内外互联网大厂与创业者，正陷入一场有关ChatGPT的竞赛中。

3月15日凌晨，OpenAI推出GPT-4多模态预训练大模型，除语言文本外，还支持图像识别输入，以文本形式输出。

在发布会上，官方人员演示GPT-4可以识别手绘网页草图，并仅用十秒钟左右，就根据草图写出网站代码。

在OpenAI发布会前几个小时，谷歌刚刚宣布推出一系列生成式AI功能，用于其各种办公软件中，包括谷歌Gmail、Docs（文档）、Sheets（表格）和 Slides（幻灯片）。

在外界看来，这是谷歌意图抢在微软3月16日预期官宣GPT接入Office之前，展现自己的成果。

作为直接竞争对手，谷歌已走在“对抗”微软与OpenAI的最前列。但随着OpenAI空降官宣GPT-4，谷歌又陷入下一场追逐战中。

ChatGPT是AIGC领域的颠覆性产品，在上线后吸引了全球关注。将ChatGPT嵌入微软Bing搜索引擎后，Bing日活首次突破1亿，直接影响到谷歌的用户基础。

面对微软的步步紧逼，苹果、Meta和亚马逊等公司也正计划重新评估其人工智能的开发策略。

3月16日，百度将率先发布“中国版ChatGPT”文心一言。国内创业公司和互联网大厂，都迅速跟进，不愿成为新技术掉队者。在王兴、王慧文再度携手、开启AI领域创业的同时，快手前AI核心人物李岩也投身“多模态大模型”创业。

随着OpenAI发布GPT-4，多模态大模型已成为最新的技术变革方向，人工智能正迈入“iPhone 时刻”。正如iPhone带来的智能手机变革，GPT模型的出现又将影响未来AI领域的发展方向。

如今，微软与谷歌竞争的不只是当前的市场，还有未来AI时代的定义标准与话语权。

GPT-4：多模态变革

面对ChatGPT的步步紧逼，海外大厂都在追赶和阻击微软，以动摇其目前在人工智能领域的领先地位。

在“对抗”微软与Open AI方面，谷歌已经走在前列。知情人士透露，谷歌高级管理层已经宣布“红色指令”，其中要求在几个月时间里将“生成式人工智能”技术集成到谷歌的所有重要产品中。

去年12月，谷歌母公司Alphabet就曾发布“红色警告”，已处于半退休状态的创始人拉里·佩奇和谢尔盖·布林重新回到公司，商讨制定了人工智能后续战略，并决定将聊天机器人纳入搜索引擎，以应对ChatGPT的威胁。

但从微软和OpenAI近期举动来看，单纯的文本交互已无法满足其在生成式AI方向的野望，包含文本、图像、视频处理等在内的多模态大模型已成为其最新的技术变革发力点。

在GPT4.0发布前，今年3月初，微软发布了多模态AI大模型Kosmos-1。微软AI技术专家Holger Kenn表示，多模态AI不仅能够将文本转变成图像，还可以转变成音乐和视频，尤其在编程领域，AI模型能够更轻松的生成样板代码。

在微软发布Kosmos-1后，3月7日，谷歌和柏林工业大学的团队推出了PaLM-E视觉语言模型，参数量高达5620亿，约为GPT-3参数量的三倍。

据悉，PaLM-E大模型是在语言类模型PaLM（5400亿参数）和视觉类模型ViT（220亿参数）的基础上开发的。其不仅可以理解图像，还能理解、生成语言，以及将两者结合，处理复杂的机器人指令。

谷歌与微软的较量不仅体现在生成式AI的场景应用层面，也聚焦于大模型底层实力。但随着GPT4.0的发布，多模态大模型的能力得到进一步展现，谷歌的声量又再度落于下风。

今天凌晨，OpenAI发布最新GPT4.0多模态大模型，引爆全网讨论。与前一代相比，最新的GPT4.0可以识别图片输入；文字输入上限提升至2.5万字；回答深度和专业性、推理和风格变化能力也显著提高。

OpenAI称，GPT-4在各种专业学术基准上有着人类水平表现。在最新测试中，GPT-4通过了模拟律师考试，得分约为前10%，而GPT-3.5得分约为倒数10%。GRE、SAT数学考试成绩也有大幅提升，击败了80%以上的人类答题水平。

GPT-4也拥有更高级的推理能力。用户在GPT上传了一张梗图，问这张图为什么会引人发笑：

GPT4.0一一给出回答：

在官方的示例中，GPT-4.0可以10秒钟编写网站代码，可以编写剧本、计算物理题、速读专业论文、分析数据图表，甚至可以解读搞笑图片与漫画。

在业内人士看来，生成式AI的产生本质上是一种生产力革命，其不仅是工具，而是直接成为生产要素的重要部分。以文本、音频、图像和视频为处理对象的多模态大模型和生成式AI，势必会对未来的内容创作、数据处理等相关行业带来巨大冲击。

AI对传统工作方式的革命和颠覆或许即将到来，未来最核心的竞争力和技能可能不再是编程，计算，甚至分析能力，而是和大模型的对话能力。

现在人工智能正处于一个决定性的时刻，就像90年代的互联网以及iPhone带来的手机变革，人工智能正朝着大规模采用的方向发展，ChatGPT类的大模型正推动数据革命。

美国银行战略分析师预测，人工智能正迈入“iPhone 时刻”，预估到2030年会为全球经济带来15.7万亿美元的增长。

在过去，苹果曾经两次定义硬件工具的交互方式：PC时代的Apple Lisa电脑，是首次采用图形用户界面(GUI)和鼠标的个人电脑；到智能手机时代，iPhone定义了触控交互。

如今，ChatGPT已经改变了人与文字、知识的交互方式，而下一步，ChatGPT类的大模型又将影响未来AI的发展方向和人类的工作方式。

ChatGPT开放端口是创业机会吗？

作为OpenAI背后的投资者，微软的相关产品已经取得了初步成果。

微软在GPT-4发布后第一时间表示，新的Bing已经基于GPT-4技术运行，这是为搜索产品量身定制的模型产品。

在集成ChatGPT的Bing搜索引擎推出一个月后，微软宣布Bing每日活跃用户首次突破1亿，每天大约有1/3的必应用户与BingChat进行交互。此外，Bing在移动设备上的使用率也有所增长，BingChat应用使得每日活跃用户增加了6倍。

此外，微软宣布，将于3月16日召开“工作的AI未来”发布会，预计将展示其类似ChatGPT的人工智能，如何在Teams、Word和Outlook等Office生产力套件中发挥作用。

从Bing浏览器到Office办公套件，微软正筹划将AI赋能更多C端、甚至B端用户。据悉，微软计划将ChatGPT背后的技术整合到其Power Platform平台上，允许用户在几乎不需要编码的情况下，就能开发自己的应用程序。

“我们不想把它打造成定制产品，它一开始是一个定制产品，但我们总是想办法把它打造成通用型产品，这样任何想训练大型语言模型的人都可以利用同样的改进，”微软负责云计算和人工智能的执行副总裁斯科特格思里曾对外表示，“这真的能够帮助我们成为使用更广泛的人工智能云。”

对旗下平台进行AI赋能是互联网大厂的优势，微软、谷歌、BAT等互联网大厂具备充足的资金和技术支持，同时具备庞大的C端流量入口。对于他们来说，开发自有大模型一方面可以探索更多的场景和商业模式，另一方面也是为了保证自身对于用户的竞争力和行业话语权。

但对于资金和技术实力欠缺的企业或创业者来说，利用大厂开源模型，优先采用接口模式，结合自身产品，将重心放在更具体的需求场景上，或许才是最优的选择。

ChatGPT之父、OpenAI创始人山姆·阿尔特曼在3月10日的摩根士丹利大会上透露，OpenAI将重点开发一个平台，向开发者开放API接口，并创建类似ChatGPT的应用程序，第三方开发者被允许通过API将ChatGPT集成到他们的应用程序和服务中。

OpenAI将推出一系列工具，让用户可以更好地控制这套生成式人工智能系统，并针对通用用户用例和具体用户用例进行改进。

最新GPT-4发布后，OpenAI把ChatGPT直接升级为GPT-4最新版本。同时，OpenAI开放了GPT-4的API。

ChatGPT Plus付费订阅用户可以获得具有使用上限的GPT-4访问权限（每4小时100条消息），可以向GPT-4模型发出纯文本请求，图像输入处于研究预览阶段，仍不完全公开。

用户可以申请使用GPT-4的API，OpenAI会邀请部分开发者体验，并逐渐扩大邀请范围。该API的定价为每输入1000个字符(约合750个单词)，价格为0.03美元；GPT-4每生成1000个字符，价格为0.06美元。

与前一代模型相比，新推出的GPT-4 API价格提高不少。3月2日，OpenAI刚刚放出ChatGPT API，比之前的GPT-3.5模型便宜10倍，每生成1000字符，价格为0.002美元，即2.7美元就可输出100万个字符。

自去年12月以来，ChatGPT对于处理查询的方式进行了优化，使成本降低90%，最终带来了面向用户的大幅降价，GPT-4或许也能在将来重复这一过程，这将大大降低开发人员利用ChatGPT赋能自身产品的难度。

当调用ChatGPT模型的能力不再是门槛，对于场景赛道的理解、商业模式的构建能力就成为企业的核心竞争优势。

北极光创投合伙人张朋在一场直播中向创业者提出建议，产品和服务不能仅依靠调用大模型的能力，还要实现差异化，比如工具层+应用层结合在客户的场景落地，让客户买的是场景的价值。

张朋认为，从变现角度，最好从应用层下手，“以Pass为例的中间层的很难盈利，大多客户难以从通用模型框架自我研究出解决方案，还需要提供细化到应用的服务，B端客户需要的不是工具，是解决方案。”

千万美元入场券

美团联合创始人王慧文对于AI的态度很明确，“关于人工智能，到现在为止，我只有一个判断，必须参与。”

今年2月，王慧文在朋友圈发布“组队帖”，要带资5000万美元进入AI赛道，设立光年之外科技有限公司，资金占股25%，其余75%的股份用于邀请顶级研发人员，打造中国Open AI。

据王慧文透露，光年之外估值达2亿美元，下轮融资已有顶级VC认购2.3亿美元。3月8日，美团创始人王兴在朋友圈回应王慧文的宣言，宣布将以个人身份参与王慧文的创业公司“光年之外”的A轮投资，并出任董事。

在“双王”三度携手、进场AI赛道的同时，众多互联网大佬纷纷开始招兵买马，争相抢夺人才：原京东集团高级副总裁、集团技术委员会主席周伯文同样在朋友圈发布招募研发、产品及算法人员，原搜狗CEO王小川对媒体回应正快速筹备AI大模型，快手前AI核心人物李岩也投身“大模型”赛道创业，成立AI公司元石科技，进行多模态大模型的研发。

百度、腾讯、阿里、字节跳动等互联网大厂也在“争分夺秒”开发自有大模型，百度宣布将于3月16日推出类似产品“文心一言”，腾讯针对类ChatGPT产品已成立“混元助手”项目组，阿里巴巴则表示其聊天机器人正处于研发内测阶段。

在OpenAI发布GPT4.0后，即将发布文心一言的百度压力再度增加。ChatGPT的背后离不开大模型、大数据、大算力，大厂想要追赶Open AI，也需要面临多方面的挑战。

在算力要求方面，市场调查机构TrendForce集邦咨询公布的最新报告指出，如果以英伟达A100显卡的处理能力计算，运行ChatGPT将需要使用到3万块英伟达GPU，目前英伟达A100显卡的售价在1万-1.5万美元之间，3万块售价超过3亿美金。

除算力要求高外，需要大量的数据集得到ChatGPT训练成本非常高昂。其使用Transformer神经网络架构，训练数据来自包括维基百科，以及真实对话在内的庞大语料库，有着多达1750亿个模型参数。

根据中信研报测算，ChatGPT生成一条信息的成本在1.3美分左右，是目前传统搜索引擎的3-4倍，成本问题中短期内或只能等待硬件成本的继续下降。

尽管目前技术上还在追赶Open AI，但在这条新兴赛道上，BAT并不想缺席。

如今，现在生成式AI的商业模式还有待探索，但人的想象力是无穷的。ChatGPT可以写诗，可以优化搜索，可以回复邮件，可以整理数据，也可以编写代码……

ChatGPT只是更伟大事物的开始，英伟达CEO黄仁勋表示，“你知道你今天做不到，但是当然，它总有一天会做到的”。

无论现在的微软、谷歌、百度等旗下的聊天机器人表现如何，这也只是新时代AI技术迭代的最开始，未来的AI产业势必会更精彩。

运营|陈小妍

策划|晨曦丁珏汭（澎湃新闻高级编辑）