正在阅读:

王慧文豪掷3.4亿,众人都想复制ChatGPT

扫一扫下载界面新闻APP

王慧文豪掷3.4亿,众人都想复制ChatGPT

怎么书写ChatGPT的中国故事?

文|伯虎财经 陈平安

如果非要用一个词来形容ChatGPT最近的热度,那我只能称之为“绝杀”。

已经很久没有一个科技圈的热点能够承包全网小编2周的KPI。从北京中关村到加州硅谷,从创投大佬到普通学生,都在使用、讨论和分享,真正属于是“环球同此凉热”。

这么些年来,和AI相关的热点不是没有,比如之前阿尔法狗和自动驾驶。热度来的快去的也快,阿尔法狗几乎已经无人提及,自动驾驶遭遇寒冬,企业集体降维求生。

但这次是真不一样。ChatGPT颠覆了大众对于AI的认知,真正把通用模型摆到了普通用户的面前,不仅能帮你写材料,敲代码,还能通过选拔性考试的测验,美国宾夕法尼亚大学称,ChatGPT能够通过该校工商管理硕士MBA课程的期末考试。

ChatGPT的强大甚至还让国际顶刊《自然》杂志宣布,将人工智能工具列为作者的论文,不能在杂志上发表。

业界大佬们也纷纷出来为它站台。马斯克和比尔盖茨曾经坚定的相信“AI威胁论”,为了预防人工智能带来的灾难性影响,推动人工智能发挥积极作用,马斯克还参与建立了一家非营利机构,OpenAI。(是的,就是ChatGPT的研发公司)

现在这两人,一个称赞“ChatGPT好吓人,我们离强大到危险的人工智慧不远了”,一个甚至表示“ChatGPT的意义不亚于PC和互联网的诞生”。

更为不同寻常的是大厂们的动作。面对ChatGPT,大厂们的反应强烈,谷歌冒着翻车的危险也要强行上线内测产品,国内包括百度、阿里、腾讯、科大讯飞、京东等都宣布了相关的研发上线时间表。

小公司为提振股价强行蹭热度还可以理解,业务稳定的大公司为何非要冒这个风险呢?

01 AI不会取代你,一个使用AI的人会取代你

要理解ChatGPT的革命性,不如先从搜索聊起。

90后以前的互联网用户们应该都知道,国内的中文信息服务大致经历了三个阶段。

第一个阶段是导航网站和门户网站阶段,寻找信息要经由导航网站。

第二阶段是搜索引擎阶段。Page Rank算法的诞生让用户的开放性问题被转换成互联网信息图谱上具有关联性优先级的、一个更具体的选项扩列,人们可以通过搜索来获得自己想要的信息。

第三阶段是移动互联网阶段。智能手机的普及和字节的推荐算法让那些你想要的信息自动被推送到你的面前。

不难看出,每一个阶段的更迭都伴随着效率的提升。如果把以上三个阶段的效率分别比作步行,马车和汽车,那么ChatGPT则更像是“导弹”。

这也就难怪谷歌CEO皮柴会如此火急火燎的在官网上宣布上马类ChatGPT产品——一款实验性的对话AI服务Bard,即便这款产品在内部算不上准备充足。

因为家都快被偷了。

但ChatGPT,或者说将其包含在内的AIGC展现的潜力,远不止搜索这一个领域。

比如今年2月8日,微软就推出了由 ChatGPT 提供技术支持的高级 Teams 产品, 不仅可以自动帮助参会者生成会议记录,即使没有参加会议,智能回顾功能也能帮助用户生成会议记录和要点。

由ChatGPT中分拆而出的CodeX则成为了自动补齐代码应用 Copilot 的基础,这款旨在辅助程序员写代码的应用从去年 8 月开始收费,每月 10 美元。

至于实际效果?特斯拉前任AI总监Andrej Karpathy透露,现在他80%的代码都是由AI生成的(GitHub Copilot),而且有80%的准确率。

游戏产业同样面临着来自ChatGPT的挑战。国外开发者Bloc利用ChatGPT为游戏《骑马与砍杀2》开发了一个实验性Mod,在ChatGPT的帮助下,原本相对呆板的NPC变得灵动起来,不再只能重复几句固定的台词。

此前社交媒体上讨论火热的AI绘画同样如此。去年8月,游戏设计师Jason Allen通过AI绘图工具Midjourney生成原画,再经过Photoshop润色而完成的作品《太空歌剧院》在科罗拉多州博览会上获得了数字类别的一等奖。虽然AI绘画的能力并不能和资深的人类画师媲美,但无疑大大提高了创作的生产效率。据深燃报道,有业内人士表示,“AI绘图就已经是生产力的一部分。”

根据腾讯研究院《AIGC发展趋势2023》,AIGC产业生态正在加速形成和发展,走向模型及服务的未来,其中包括以预训练模型为主的基础层;以垂直化、场景化、个性化模型为主的中间层;和以图像、语音、文字生成等具体AIGC应用为主的应用层。

这意味着ChatGPT这样的产品或将逐渐成为一种类似基础设施的存在,一如pc和手机。

当下,已经有许多公司开始利用 GPT-3 系列模型做应用端的开发,根据 gpt3demo 网站统计,现在已经有了 628 个调用 GPT-3 系列模型开发的应用程序。背靠 GPT-3 模型的写作辅助工具 Jasper,成立 18 个月估值达 15 亿美元。

简而言之就是,以ChatGPT为代表的AIGC是目前少数可预见的,可以提升整个社会生产效率的可落地工具,就像蒸汽机解放双手,汽车解放双腿那样。在这样的大前提下,移动互联网时期字节超车百度的事件可能会再次重演。

ChatGPT 在 LinkedIn 分享的一篇,原本针对“ChatGPT会不会让我失业”的帖子或许也适合回答开头末尾的那个问题:“AI 不会取代你。一个使用 AI 的人将取代你”。

02 大厂的游戏

ChatGPT所在的AI赛道是典型的资金密集型,能够参与到这个游戏的玩家寥寥无几。这点从OpenAI的发展历程就能看出。

OpenAI 在2015年末成立时是一家非营利性机构,创始人都是硅谷大名鼎鼎的人物,比如特斯拉CEO马斯克,YC总裁阿尔特曼等,但在“委身”微软前,资金总是捉襟见肘。

这和2018年以后,OpenAI坚持大模型训练有关。2015年以前,小模型被公认为是AI模型的最优选。这是因为小型的模型对于硬件的要求较低,同时和大模型相比,小模型具有更高的可解释性和稳健性。但小模型的缺点在于,对通用任务的处理表现并不好。换言之,他们很难针对特定领域或者场景去进行定制。

在这个背景下,大模型脱颖而出。大模型可泛化能力强,可以做到“举一反三”,同一模型利用少量数据进行微调或不进行微调就能完成多个场景的任务,从而摆脱小模型应用碎片化、作坊式开发的特点。简单来说,就是大模型更加“通用”。

2019年,OpenAI推出了大型语言模型GPT-2,参数超过15亿,是上一代语言模型 GPT 的十倍,后续迭代的GPT3的参数更是达到1750亿。大模型的训练让自然语言模型取得了突破性的进展,GPT-2已经能根据用户输入的文字生成看上去逻辑正常的文字。

但大模型太花钱了。布罗克曼等人测算,训练大模型消耗的计算量,每 3、4 个月会翻一倍。据多位业内人士估算,OpenAI 训练 GPT-3 一年,仅算力成本就有 2000 万美元。

由于研发所需资金太大,OpenAI 在2019年转变为盈利上限型组织,和微软达成了资本挣到有限收益之后,后续收益归非盈利实体。截至目前,微软对OpenAI最新一轮投资额达100亿美元。

无论是训练模型所需的庞大数据和算力,还是参与开发的顶级人工智能科学家,亦或是推广和普及所需的生态支持,都足见产业的门槛之高,国内也只有互联网巨头们有这个数据优势和资金积累。

这也是为什么日前原美团联合创始人王慧文在社交平台官宣出资5000万美元,要打造中国的OpenAI,却被网友质疑“5000万美元够干什么?”的原因。

基于数据安全和应用效果的考虑,国内需要有自己的ChatGPT,互联网大厂们需要担负起这个责任。

03 谁能率先突围?

ChatGPT的爆火也让很多国内媒体开始反思,为什么中国的科技环境无法诞生这种创新?对于这类看法,伯虎财经认为,对国内AI产业的看法不应如此悲观。

首先需要承认的是,在ChatGPT上,国内确实存在一定差距,普遍的看法认为这种技术上的差距在2年左右。

同时大模型在某种意义代表着一种暴力美学,训练大模型需要空前的语料数据。相对于英语语境,中文互联网在表达习惯上会缺乏严谨,比如让许多中年人头疼的拼音简写,YYDS。这类表达必然会影响AI训练的效果和效率。这也是为什么ChatGPT爆火后,内容质量相对较高的知乎会迎来一波股价暴涨。

不过我们也要看到国内AI产业也有足够的底气。

大模型的训练离不开算法、算力和数据。算法决定了其本身的学习能力,算力则影响着算法的学习效率,数据决定了AI的训练效果。

国内拥有世界最大规模的互联网用户,在数据积累方面有一定优势。而根据《2021―2022全球计算力指数评估报告》显示,在算力上中美大致处于同一梯队。

和芯片或者操作系统不同,国内玩家在AI产业不需要面对前者必须直面的困难,比如核心技术垄断,制造上的门槛,即便是ChatGPT,其本质仍然属于自然语言NLP的范畴,是人工智能技术长期发展和积累的结果。

Meta首席人工智能科学家Yann LeCun也曾评论:“就底层技术而言,ChatGPT 并没有什么特别的创新,也不是什么革命性的东西。许多研究实验室正在使用同样的技术,开展同样的工作。”

也就是说,国内具备追赶甚至超越的能力。当前国内大厂基本都具备训练大模型的能力,比如百度的文心大模型,阿里的“通义”大模型,华为的鹏城盘古大模型,腾讯的混元AI大模型等。

从AI相关技术来看,百度是少有的具备AI全栈能力的企业,在芯片、框架、模型、应用四层技术栈均有布局。根据statista2021年的数据,腾讯和百度的AI专利储备分列世界前两位。

相对而言,字节在应用端的开发更领先。根据tech星球报道,在ChatGPT被用作写文章前,字节跳动就研发了Xiaomingbot自动写稿平台,自2016年上线以来,已经累计写了60万篇文章,覆盖了17项的体育赛事,支持6种语言。

(图源:Tech星球)

此前国内AI产业的投入大多面向其他产业方向,ChatGPT的横空出世等于把方向统一了。当下各家基本上确定了相关研发上线的时间表,最早的比如百度的“文心一言”在3月完成内测后,就将和公众见面。

Gartner预测,到2025年,生成式AI将占到所有生成数据的10%,目前这个比例还不足1%。

在这波新的智能浪潮里,中国需要土生土长的ChatGPT,互联网大厂们也需要争做潮头的破浪者。

参考来源:

1、量子位:ChatGPT让游戏NPC活了!交流不再靠选项,问什么答什么,网友直呼童年梦想成真

2、腾讯研究院:《AIGC发展趋势2023》

3、品玩:谷歌发布自己的ChatGPT!华人团队主导,紧急上线,新的搜索大战要来了

4、腾讯研究院:一文读懂:有关ChatGPT的十个问题

5、晚点LatePost:火鸡追上雄鹰,OpenAI 的成功为何难以复制丨TECH TUESDAY

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

王慧文豪掷3.4亿,众人都想复制ChatGPT

怎么书写ChatGPT的中国故事?

文|伯虎财经 陈平安

如果非要用一个词来形容ChatGPT最近的热度,那我只能称之为“绝杀”。

已经很久没有一个科技圈的热点能够承包全网小编2周的KPI。从北京中关村到加州硅谷,从创投大佬到普通学生,都在使用、讨论和分享,真正属于是“环球同此凉热”。

这么些年来,和AI相关的热点不是没有,比如之前阿尔法狗和自动驾驶。热度来的快去的也快,阿尔法狗几乎已经无人提及,自动驾驶遭遇寒冬,企业集体降维求生。

但这次是真不一样。ChatGPT颠覆了大众对于AI的认知,真正把通用模型摆到了普通用户的面前,不仅能帮你写材料,敲代码,还能通过选拔性考试的测验,美国宾夕法尼亚大学称,ChatGPT能够通过该校工商管理硕士MBA课程的期末考试。

ChatGPT的强大甚至还让国际顶刊《自然》杂志宣布,将人工智能工具列为作者的论文,不能在杂志上发表。

业界大佬们也纷纷出来为它站台。马斯克和比尔盖茨曾经坚定的相信“AI威胁论”,为了预防人工智能带来的灾难性影响,推动人工智能发挥积极作用,马斯克还参与建立了一家非营利机构,OpenAI。(是的,就是ChatGPT的研发公司)

现在这两人,一个称赞“ChatGPT好吓人,我们离强大到危险的人工智慧不远了”,一个甚至表示“ChatGPT的意义不亚于PC和互联网的诞生”。

更为不同寻常的是大厂们的动作。面对ChatGPT,大厂们的反应强烈,谷歌冒着翻车的危险也要强行上线内测产品,国内包括百度、阿里、腾讯、科大讯飞、京东等都宣布了相关的研发上线时间表。

小公司为提振股价强行蹭热度还可以理解,业务稳定的大公司为何非要冒这个风险呢?

01 AI不会取代你,一个使用AI的人会取代你

要理解ChatGPT的革命性,不如先从搜索聊起。

90后以前的互联网用户们应该都知道,国内的中文信息服务大致经历了三个阶段。

第一个阶段是导航网站和门户网站阶段,寻找信息要经由导航网站。

第二阶段是搜索引擎阶段。Page Rank算法的诞生让用户的开放性问题被转换成互联网信息图谱上具有关联性优先级的、一个更具体的选项扩列,人们可以通过搜索来获得自己想要的信息。

第三阶段是移动互联网阶段。智能手机的普及和字节的推荐算法让那些你想要的信息自动被推送到你的面前。

不难看出,每一个阶段的更迭都伴随着效率的提升。如果把以上三个阶段的效率分别比作步行,马车和汽车,那么ChatGPT则更像是“导弹”。

这也就难怪谷歌CEO皮柴会如此火急火燎的在官网上宣布上马类ChatGPT产品——一款实验性的对话AI服务Bard,即便这款产品在内部算不上准备充足。

因为家都快被偷了。

但ChatGPT,或者说将其包含在内的AIGC展现的潜力,远不止搜索这一个领域。

比如今年2月8日,微软就推出了由 ChatGPT 提供技术支持的高级 Teams 产品, 不仅可以自动帮助参会者生成会议记录,即使没有参加会议,智能回顾功能也能帮助用户生成会议记录和要点。

由ChatGPT中分拆而出的CodeX则成为了自动补齐代码应用 Copilot 的基础,这款旨在辅助程序员写代码的应用从去年 8 月开始收费,每月 10 美元。

至于实际效果?特斯拉前任AI总监Andrej Karpathy透露,现在他80%的代码都是由AI生成的(GitHub Copilot),而且有80%的准确率。

游戏产业同样面临着来自ChatGPT的挑战。国外开发者Bloc利用ChatGPT为游戏《骑马与砍杀2》开发了一个实验性Mod,在ChatGPT的帮助下,原本相对呆板的NPC变得灵动起来,不再只能重复几句固定的台词。

此前社交媒体上讨论火热的AI绘画同样如此。去年8月,游戏设计师Jason Allen通过AI绘图工具Midjourney生成原画,再经过Photoshop润色而完成的作品《太空歌剧院》在科罗拉多州博览会上获得了数字类别的一等奖。虽然AI绘画的能力并不能和资深的人类画师媲美,但无疑大大提高了创作的生产效率。据深燃报道,有业内人士表示,“AI绘图就已经是生产力的一部分。”

根据腾讯研究院《AIGC发展趋势2023》,AIGC产业生态正在加速形成和发展,走向模型及服务的未来,其中包括以预训练模型为主的基础层;以垂直化、场景化、个性化模型为主的中间层;和以图像、语音、文字生成等具体AIGC应用为主的应用层。

这意味着ChatGPT这样的产品或将逐渐成为一种类似基础设施的存在,一如pc和手机。

当下,已经有许多公司开始利用 GPT-3 系列模型做应用端的开发,根据 gpt3demo 网站统计,现在已经有了 628 个调用 GPT-3 系列模型开发的应用程序。背靠 GPT-3 模型的写作辅助工具 Jasper,成立 18 个月估值达 15 亿美元。

简而言之就是,以ChatGPT为代表的AIGC是目前少数可预见的,可以提升整个社会生产效率的可落地工具,就像蒸汽机解放双手,汽车解放双腿那样。在这样的大前提下,移动互联网时期字节超车百度的事件可能会再次重演。

ChatGPT 在 LinkedIn 分享的一篇,原本针对“ChatGPT会不会让我失业”的帖子或许也适合回答开头末尾的那个问题:“AI 不会取代你。一个使用 AI 的人将取代你”。

02 大厂的游戏

ChatGPT所在的AI赛道是典型的资金密集型,能够参与到这个游戏的玩家寥寥无几。这点从OpenAI的发展历程就能看出。

OpenAI 在2015年末成立时是一家非营利性机构,创始人都是硅谷大名鼎鼎的人物,比如特斯拉CEO马斯克,YC总裁阿尔特曼等,但在“委身”微软前,资金总是捉襟见肘。

这和2018年以后,OpenAI坚持大模型训练有关。2015年以前,小模型被公认为是AI模型的最优选。这是因为小型的模型对于硬件的要求较低,同时和大模型相比,小模型具有更高的可解释性和稳健性。但小模型的缺点在于,对通用任务的处理表现并不好。换言之,他们很难针对特定领域或者场景去进行定制。

在这个背景下,大模型脱颖而出。大模型可泛化能力强,可以做到“举一反三”,同一模型利用少量数据进行微调或不进行微调就能完成多个场景的任务,从而摆脱小模型应用碎片化、作坊式开发的特点。简单来说,就是大模型更加“通用”。

2019年,OpenAI推出了大型语言模型GPT-2,参数超过15亿,是上一代语言模型 GPT 的十倍,后续迭代的GPT3的参数更是达到1750亿。大模型的训练让自然语言模型取得了突破性的进展,GPT-2已经能根据用户输入的文字生成看上去逻辑正常的文字。

但大模型太花钱了。布罗克曼等人测算,训练大模型消耗的计算量,每 3、4 个月会翻一倍。据多位业内人士估算,OpenAI 训练 GPT-3 一年,仅算力成本就有 2000 万美元。

由于研发所需资金太大,OpenAI 在2019年转变为盈利上限型组织,和微软达成了资本挣到有限收益之后,后续收益归非盈利实体。截至目前,微软对OpenAI最新一轮投资额达100亿美元。

无论是训练模型所需的庞大数据和算力,还是参与开发的顶级人工智能科学家,亦或是推广和普及所需的生态支持,都足见产业的门槛之高,国内也只有互联网巨头们有这个数据优势和资金积累。

这也是为什么日前原美团联合创始人王慧文在社交平台官宣出资5000万美元,要打造中国的OpenAI,却被网友质疑“5000万美元够干什么?”的原因。

基于数据安全和应用效果的考虑,国内需要有自己的ChatGPT,互联网大厂们需要担负起这个责任。

03 谁能率先突围?

ChatGPT的爆火也让很多国内媒体开始反思,为什么中国的科技环境无法诞生这种创新?对于这类看法,伯虎财经认为,对国内AI产业的看法不应如此悲观。

首先需要承认的是,在ChatGPT上,国内确实存在一定差距,普遍的看法认为这种技术上的差距在2年左右。

同时大模型在某种意义代表着一种暴力美学,训练大模型需要空前的语料数据。相对于英语语境,中文互联网在表达习惯上会缺乏严谨,比如让许多中年人头疼的拼音简写,YYDS。这类表达必然会影响AI训练的效果和效率。这也是为什么ChatGPT爆火后,内容质量相对较高的知乎会迎来一波股价暴涨。

不过我们也要看到国内AI产业也有足够的底气。

大模型的训练离不开算法、算力和数据。算法决定了其本身的学习能力,算力则影响着算法的学习效率,数据决定了AI的训练效果。

国内拥有世界最大规模的互联网用户,在数据积累方面有一定优势。而根据《2021―2022全球计算力指数评估报告》显示,在算力上中美大致处于同一梯队。

和芯片或者操作系统不同,国内玩家在AI产业不需要面对前者必须直面的困难,比如核心技术垄断,制造上的门槛,即便是ChatGPT,其本质仍然属于自然语言NLP的范畴,是人工智能技术长期发展和积累的结果。

Meta首席人工智能科学家Yann LeCun也曾评论:“就底层技术而言,ChatGPT 并没有什么特别的创新,也不是什么革命性的东西。许多研究实验室正在使用同样的技术,开展同样的工作。”

也就是说,国内具备追赶甚至超越的能力。当前国内大厂基本都具备训练大模型的能力,比如百度的文心大模型,阿里的“通义”大模型,华为的鹏城盘古大模型,腾讯的混元AI大模型等。

从AI相关技术来看,百度是少有的具备AI全栈能力的企业,在芯片、框架、模型、应用四层技术栈均有布局。根据statista2021年的数据,腾讯和百度的AI专利储备分列世界前两位。

相对而言,字节在应用端的开发更领先。根据tech星球报道,在ChatGPT被用作写文章前,字节跳动就研发了Xiaomingbot自动写稿平台,自2016年上线以来,已经累计写了60万篇文章,覆盖了17项的体育赛事,支持6种语言。

(图源:Tech星球)

此前国内AI产业的投入大多面向其他产业方向,ChatGPT的横空出世等于把方向统一了。当下各家基本上确定了相关研发上线的时间表,最早的比如百度的“文心一言”在3月完成内测后,就将和公众见面。

Gartner预测,到2025年,生成式AI将占到所有生成数据的10%,目前这个比例还不足1%。

在这波新的智能浪潮里,中国需要土生土长的ChatGPT,互联网大厂们也需要争做潮头的破浪者。

参考来源:

1、量子位:ChatGPT让游戏NPC活了!交流不再靠选项,问什么答什么,网友直呼童年梦想成真

2、腾讯研究院:《AIGC发展趋势2023》

3、品玩:谷歌发布自己的ChatGPT!华人团队主导,紧急上线,新的搜索大战要来了

4、腾讯研究院:一文读懂:有关ChatGPT的十个问题

5、晚点LatePost:火鸡追上雄鹰,OpenAI 的成功为何难以复制丨TECH TUESDAY

本文为转载内容,授权事宜请联系原著作权人。