正在阅读:

国产大模型追赶OpenAI到哪一步了?

扫一扫下载界面新闻APP

国产大模型追赶OpenAI到哪一步了?

距OpenAI还有半年的距离。

文|AI鲸选社 陈佳惠

编辑|杨晓鹤

“钉钉也有OpenAI的API接口,但是我们主要的合作伙伴是国内的大模型五小虎。”

在钉钉最新的AI改版采访会上,钉钉总裁不穷说道,大家可以在钉钉上调用通义或者Kimi等很多大模型。这也意味着,五小虎在钉钉这个日活数亿的平台,不用面对最强大的对手。也不仅是在办公平台中,在国内诸多AI业务场景中,国产大模型都不用面对ChatGPT了。

这无疑对很多国产大模型是一个利好的消息。尽管微软云还能提供API支持,但如今Azure也在有意减少在华业务,因此带来的竞争压力几乎没有。

更关键的是,ChatGPT的更新速度也明显放缓,尽管OpenAI创始人Sam Altman在演讲中表示:“Scaling laws依旧有效,GPT-5将比GPT-4聪明得多,我们还没有到达这条曲线的顶端”。但GPT-5将会何时发布,还是个未知数。

这也意味着,过去一年半时间,国产大模型一直能狂追,ChatGPT-4o珠玉在前,国产大模型已经追赶到哪里了?

2024年主流大模型能力测评图

差距缩短到半年,集体进化到Turbo水平

2023年大模型领域,争吵的最大话题,是国产大模型到底距离OpenAI,还有多远的差距。百度创始人李彦宏说只差两个月,王小川说怎么可能,如今这一答案基本明了。

ChatGPT-4 Turbo是在2023年11月7日的OpenAI开发者大会上发布,让当时的大模型界振聋发聩。但距离GPT上次更新已遥遥8个月,国产大模型在这期间分秒必争,如今基本宣布自己已经达到或超过ChatGPT-4 Turbo,也即意味着差距至少在半年之久。

但也有个别领域差异化领先,全球著名开源平台huggingface(笑脸)的联合创始人兼首席执行官Clem在社交平台宣布,阿里最新开源的Qwen2-72B指令微调版本,成为开源模型排行榜第一名。

这一成绩振奋人心。不仅如此,根据排行榜的数据显示,Meta开源的Llama-3-70B指令微调版本位列第2;阿里的Qwen2-72B基础版本排名第3;第9和第10名,全部都是阿里之前开源的Qwen1.5基础和Chat版本。

阿里的开源大模型不仅在前十名中占据了4个坑位,还超越了科技巨头Meta的Llama-3-70B。Llama号称是众多国产大模型之母,不少国产大模型都辟谣过关系,这次终于实现了超越。不仅阿里通义,智谱AI也是开源路上一员猛将。智谱开源了其第四代的GLM模型—GLM-4-9B。

GLM-4-9B开源模型综合能力相比 ChatGLM3-6B 提升 40% ,中文学科能力提升 50%,最高支持达 1 百万 tokens 长文本,支持 26 种语言。闭源大模型的竞争更加激烈,各家最新版本纷纷称超越ChatGPT-4 Turbo。6月21日,不走AGI、更强调行业落地路线的华为盘古大模型 5.0正式发布。盘古大模型 5.0 声称能够更好地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。已在30多个行业、400多个场景中落地。

接下来的6月27日,科大讯飞在北京发布讯飞星火大模型V4.0。并且,讯飞星火V4.0是基于全国首个国产万卡算力集群“飞星一号”训练而成。科大讯飞董事长刘庆峰称,讯飞星火参与国内外中英文12项大模型主流测试集,其中8个测试集中排名第一,超越GPT-4 Turbo等国际大模型。其在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面也实现对GPT-4 Turbo的超越。

虽然星火大模型在各种整体评分中,很多时候不在国产大模型前三甲,但有项能力国际领先,这次发布的星火语音大模型,据悉在数十个主流语种的语音识别效果层面,超过OpenAI Whisper V3,而多语种语音合成方面,星火语音大模型拟人度则已超83%。

大模型迭代热还在继续,紧接着的6月28日,百度在Wave Summit上直接发布了大幅强化检索能力的文心大模型——文心大模型4.0 Turbo。文心大模型4.0 Turbo,可以通过文心一言的网页端和APP端使用,同时面向开发者提供了API支持。

文心4.0 Turbo模型强化了检索能力,全网搜索、分析资料、等待回复这些步骤的融合,不仅提高了回答的速度,也在一定程度上缓解了大模型回答中“幻觉”的问题。

同时,百度飞桨发布新一代飞桨框架3.0 Beta版本,具备大模型训推一体、动静统一自动并行、编译器自动优化以及大模型多硬件适配等特色。训推一体的统一有利于推理优化,也能降低大模型的开发成本,可以帮助大模型实现更快迭代。多模态领域,腾讯混元大模型的Di-T架构和阶跃星辰的1T-MoE多模态的感知能力,算是领域惊喜。

腾讯混元大模型号称全球最早的Di-T架构,虽然大模型发布的晚,但好在架构先进。当然也得感谢Sora,这个期货产品,让市场形成Di-T架构是多模态大模型未来的共识。

阶跃星辰在7月的WAIC上发布万亿级参数MoE(混合专家)大语言模型Step-2正式版,Step-1.5V多模态大模型,以及Step-1X 图像生成大模型。对多模态大模型的Step-2理解在行业领先,未来表现值得期待。

沉睡的CV巨头商汤也开始发力,WAIC上发布流式原生多模态交互模型——6000亿参数日日新5.5系列大模型,其中5o版本有类似ChatGPT-4o类似的交互能力。

国产大模型们逐渐走出了“不断追赶GPT-4”的叙事线。从技术角度看,国产大模型和ChatGPT-4o的差距一直在缩小,多模态领域甚至有了并肩前行的感觉。

AI应用还未爆发,各家争NO.1 的口径

“没有应用,开源闭源模型都一文不值。”李彦宏最近频频阐述自己的AI理念,“要跳出移动时代的思维逻辑,避免掉入“超级应用陷阱”,不是只有10亿DAU的应用才叫成功。”话虽说如此,但这场AI应用的暗战,没有人会放松。

据量子位分析智库显示,豆包AI的6月份的APP端下载量位居榜首,达到了5000万。文心一言的下载总量达到1400万,暂时位列第三。但百度公布的另一维度数据是第一:文心一言用户规模达到3亿,日调用量超过了5亿。这是百度Wave Summit 2024大会上公布的数字。文心一言曾在去年12月公开用户规模首次破亿;两三个月前日均调用量也在2亿。

时隔六个月,文心一言的用户数量已翻了三倍,增长迅猛。现如今,文心一言达成“每5个人中就有1个人用过”的成绩,百度在发展大模型的路径上,除了全面AI化百度系应用,诸如百度文库经过AI大模型改造后,目前付费用户也已有2600万。最重要的发展方向是智能体。

在WAIC上,李彦宏坦言,智能体是百度最看好的AI发展方向。智能体也是当下AI走进C端的最佳形象。李彦宏表示,制作智能体的门槛并不高:只需要对着大模型把工作流程讲清楚,就可以生成一个有价值的智能体。

数据显示,文心大模型星河共创计划启动一年以来,文心大模型也已经和众多合作伙伴、开发者一起,共创了55万个AI应用。

尽管很多AI应用不到千个使用次数,但智能体确实能实现多步复杂流程的AI调用。大模型产品化中独树一派的选手要属月之暗面的Kimi和豆包App,这是少数专注To C的选手,旗下产品Kimi AI非常适合案头等工作场景中应用,支持200万汉字的长文本输入,主打无损记忆以及“长文本”,被网友称为ChatGPT中文平替。

据量子位分析智库数据,2024年6月,Kimi智能助手月访问总量达2200万。Kimi智能助手APP月新增下载量超300万,较5月增长速度提升50%。为了让大家更方便体验AI。7月8日,Kimi上线了浏览器插件,在大模型轻量应用上做出探索。

Kimi浏览器插件目前有“点问笔”和“总结器”两项功能。和月之暗面不谋而合的是,字节跳动旗下AI助手豆包此前也推出了浏览器插件版本。划线问和AI总结网页,这是用户在浏览网页时的痛点需求,Monica就凭借类似的浏览器插件能力,获得了几百万用户。kimi和豆包浏览器插件,预计也能占据很大的市场。

To C赛道上,6月份最重磅的玩家,要属腾讯旗下大模型应用“腾讯元宝”。作为多模态大模型底座上亮相的AI对话应用,还上线了深度搜索模式。在深度搜索模式下,元宝从深度和广度两方面对搜索内容进行拓展,并可同步至大纲、思维导图、相关人物事件梳理等,帮助用户掌握搜索内容。科大讯飞董事长刘庆峰表示,自去年9月全面开放以来,讯飞星火APP在安卓公开市场累计下载量达1.31亿次,在国内工具类通用大模型App中排名第一。

这个口径的第一,也让讯飞星火大模型有底气做发展路线的第三派,积极将大模型整合进硬件等产品中。一方面将大模型能力落地学习机、翻译机、办公本等自有智能硬件;另一方面,将大模型的能力深度赋能行业,正在落地汽车、家电、机器人、AI手机、AI PC等领域。

数据显示,科大讯飞AI学习机获得了2023年天猫&京东双十一销售额冠军。其新推出的智能批阅机可以一分钟扫描90份学生作业,平时教师一个半小时批改的工作任务批阅机5分钟就可以完成。走进教育、医疗场景中的科大讯飞,已经找到了自己的营收场景。

大模型5小虎难存活?商业化艰难的一步

6月份,梅花创投吴世春提到,“中国大模型五虎”想要跑出来非常难。"这句暴论在大模型圈引起了不少争论。的确,从统计到的数据看,目前大模型整体的商业化还比较基础。据『智能超参数』公开渠道统计到的数据,6月份大模型相关中标项目75个,其中:有30个项目,未披露中标金额(为方便统计,金额以0计算),其余45个中标项目披露的金额达到了1.38亿元。

大模型中标情况,来源:智能超参数

科大讯飞单月里中标的项目是8个,披露的中标金额为3895万元,百度单月中标项目7个,披露的中标金额2831万元。此外,商汤科技、阿里云、腾讯云、智谱AI等厂商也都有中标项目。在AI产业的浪潮中,虽然表面上看似繁荣,但商业化的挑战和艰难却是不容忽视的现实。

以科大讯飞和百度为例,这两家公司在单月内中标的数量和金额相对光鲜,但与巨大的研发投入相比,却显得有些杯水车薪。百度2023财报显示,百度投入研发费用为242亿元,同比增加4%;2023年科大讯飞的研发费用为34.81亿元,同比增长11.89%,投向星火大模型的费用规模便超20亿。

且根据华为高管公布的信息,开发和一次训练AI大模型的成本就高达1200万美元。从中标项目中看,大模型本身商业化还比较少。2024年6月份的统计数据来看,应用类和算力类的项目占据了绝对的主导地位,这两类的占比自2023年以来一直在90%以上,且应用类的占比还在逐渐增大。

大模型中标类别,来源:智能超参数

因此,尽管场面热闹,大模型应用的落地却大多还处于尝鲜、试点阶段,同质化现象严重,缺乏清晰的商业路径。更坏的消息是,尽管如此,国内大模型厂商们悄无声息地拉开了”价格战“的序幕。5月,字节跳动把Token的定价降低了一个数量级,从以分计价进入以厘计价时代。

业内戏言,大模型价格进入了“厘时代”。根据火山引擎公布的价格计算,1元就能买到豆包主力模型的125万Tokens,大约是200万个汉字。200万字是什么概念,大概相当于10本书。阿里通义、百度文心、智谱等相继开始跟进价格战。

同样的趋势也发生在国外。自去年以来,OpenAI已经进行了4次降价,在OpenAI发布了最新发布的多模态大模型GPT-4o中,不仅大模型性能有了很大提升,价格也下调了50%。大模型厂商们试图通过降低成本来推动大模型的普及和应用。

然而,这种策略虽然能够吸引用户尝试,但能否转化为持续的商业化成功,还有待市场的检验。AI大模型产业找到可行的商业模式,实现可持续的盈利,是所有AI企业需要面对的问题。

本文为转载内容,授权事宜请联系原著作权人。

OpenAI

  • 对话月之暗面杨植麟:Kimi推理模型对标OpenAI o1, 预训练还有提升空间
  • Kimi发布新一代推理模型,数学能力对标OpenAI o1系列

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

国产大模型追赶OpenAI到哪一步了?

距OpenAI还有半年的距离。

文|AI鲸选社 陈佳惠

编辑|杨晓鹤

“钉钉也有OpenAI的API接口,但是我们主要的合作伙伴是国内的大模型五小虎。”

在钉钉最新的AI改版采访会上,钉钉总裁不穷说道,大家可以在钉钉上调用通义或者Kimi等很多大模型。这也意味着,五小虎在钉钉这个日活数亿的平台,不用面对最强大的对手。也不仅是在办公平台中,在国内诸多AI业务场景中,国产大模型都不用面对ChatGPT了。

这无疑对很多国产大模型是一个利好的消息。尽管微软云还能提供API支持,但如今Azure也在有意减少在华业务,因此带来的竞争压力几乎没有。

更关键的是,ChatGPT的更新速度也明显放缓,尽管OpenAI创始人Sam Altman在演讲中表示:“Scaling laws依旧有效,GPT-5将比GPT-4聪明得多,我们还没有到达这条曲线的顶端”。但GPT-5将会何时发布,还是个未知数。

这也意味着,过去一年半时间,国产大模型一直能狂追,ChatGPT-4o珠玉在前,国产大模型已经追赶到哪里了?

2024年主流大模型能力测评图

差距缩短到半年,集体进化到Turbo水平

2023年大模型领域,争吵的最大话题,是国产大模型到底距离OpenAI,还有多远的差距。百度创始人李彦宏说只差两个月,王小川说怎么可能,如今这一答案基本明了。

ChatGPT-4 Turbo是在2023年11月7日的OpenAI开发者大会上发布,让当时的大模型界振聋发聩。但距离GPT上次更新已遥遥8个月,国产大模型在这期间分秒必争,如今基本宣布自己已经达到或超过ChatGPT-4 Turbo,也即意味着差距至少在半年之久。

但也有个别领域差异化领先,全球著名开源平台huggingface(笑脸)的联合创始人兼首席执行官Clem在社交平台宣布,阿里最新开源的Qwen2-72B指令微调版本,成为开源模型排行榜第一名。

这一成绩振奋人心。不仅如此,根据排行榜的数据显示,Meta开源的Llama-3-70B指令微调版本位列第2;阿里的Qwen2-72B基础版本排名第3;第9和第10名,全部都是阿里之前开源的Qwen1.5基础和Chat版本。

阿里的开源大模型不仅在前十名中占据了4个坑位,还超越了科技巨头Meta的Llama-3-70B。Llama号称是众多国产大模型之母,不少国产大模型都辟谣过关系,这次终于实现了超越。不仅阿里通义,智谱AI也是开源路上一员猛将。智谱开源了其第四代的GLM模型—GLM-4-9B。

GLM-4-9B开源模型综合能力相比 ChatGLM3-6B 提升 40% ,中文学科能力提升 50%,最高支持达 1 百万 tokens 长文本,支持 26 种语言。闭源大模型的竞争更加激烈,各家最新版本纷纷称超越ChatGPT-4 Turbo。6月21日,不走AGI、更强调行业落地路线的华为盘古大模型 5.0正式发布。盘古大模型 5.0 声称能够更好地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。已在30多个行业、400多个场景中落地。

接下来的6月27日,科大讯飞在北京发布讯飞星火大模型V4.0。并且,讯飞星火V4.0是基于全国首个国产万卡算力集群“飞星一号”训练而成。科大讯飞董事长刘庆峰称,讯飞星火参与国内外中英文12项大模型主流测试集,其中8个测试集中排名第一,超越GPT-4 Turbo等国际大模型。其在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面也实现对GPT-4 Turbo的超越。

虽然星火大模型在各种整体评分中,很多时候不在国产大模型前三甲,但有项能力国际领先,这次发布的星火语音大模型,据悉在数十个主流语种的语音识别效果层面,超过OpenAI Whisper V3,而多语种语音合成方面,星火语音大模型拟人度则已超83%。

大模型迭代热还在继续,紧接着的6月28日,百度在Wave Summit上直接发布了大幅强化检索能力的文心大模型——文心大模型4.0 Turbo。文心大模型4.0 Turbo,可以通过文心一言的网页端和APP端使用,同时面向开发者提供了API支持。

文心4.0 Turbo模型强化了检索能力,全网搜索、分析资料、等待回复这些步骤的融合,不仅提高了回答的速度,也在一定程度上缓解了大模型回答中“幻觉”的问题。

同时,百度飞桨发布新一代飞桨框架3.0 Beta版本,具备大模型训推一体、动静统一自动并行、编译器自动优化以及大模型多硬件适配等特色。训推一体的统一有利于推理优化,也能降低大模型的开发成本,可以帮助大模型实现更快迭代。多模态领域,腾讯混元大模型的Di-T架构和阶跃星辰的1T-MoE多模态的感知能力,算是领域惊喜。

腾讯混元大模型号称全球最早的Di-T架构,虽然大模型发布的晚,但好在架构先进。当然也得感谢Sora,这个期货产品,让市场形成Di-T架构是多模态大模型未来的共识。

阶跃星辰在7月的WAIC上发布万亿级参数MoE(混合专家)大语言模型Step-2正式版,Step-1.5V多模态大模型,以及Step-1X 图像生成大模型。对多模态大模型的Step-2理解在行业领先,未来表现值得期待。

沉睡的CV巨头商汤也开始发力,WAIC上发布流式原生多模态交互模型——6000亿参数日日新5.5系列大模型,其中5o版本有类似ChatGPT-4o类似的交互能力。

国产大模型们逐渐走出了“不断追赶GPT-4”的叙事线。从技术角度看,国产大模型和ChatGPT-4o的差距一直在缩小,多模态领域甚至有了并肩前行的感觉。

AI应用还未爆发,各家争NO.1 的口径

“没有应用,开源闭源模型都一文不值。”李彦宏最近频频阐述自己的AI理念,“要跳出移动时代的思维逻辑,避免掉入“超级应用陷阱”,不是只有10亿DAU的应用才叫成功。”话虽说如此,但这场AI应用的暗战,没有人会放松。

据量子位分析智库显示,豆包AI的6月份的APP端下载量位居榜首,达到了5000万。文心一言的下载总量达到1400万,暂时位列第三。但百度公布的另一维度数据是第一:文心一言用户规模达到3亿,日调用量超过了5亿。这是百度Wave Summit 2024大会上公布的数字。文心一言曾在去年12月公开用户规模首次破亿;两三个月前日均调用量也在2亿。

时隔六个月,文心一言的用户数量已翻了三倍,增长迅猛。现如今,文心一言达成“每5个人中就有1个人用过”的成绩,百度在发展大模型的路径上,除了全面AI化百度系应用,诸如百度文库经过AI大模型改造后,目前付费用户也已有2600万。最重要的发展方向是智能体。

在WAIC上,李彦宏坦言,智能体是百度最看好的AI发展方向。智能体也是当下AI走进C端的最佳形象。李彦宏表示,制作智能体的门槛并不高:只需要对着大模型把工作流程讲清楚,就可以生成一个有价值的智能体。

数据显示,文心大模型星河共创计划启动一年以来,文心大模型也已经和众多合作伙伴、开发者一起,共创了55万个AI应用。

尽管很多AI应用不到千个使用次数,但智能体确实能实现多步复杂流程的AI调用。大模型产品化中独树一派的选手要属月之暗面的Kimi和豆包App,这是少数专注To C的选手,旗下产品Kimi AI非常适合案头等工作场景中应用,支持200万汉字的长文本输入,主打无损记忆以及“长文本”,被网友称为ChatGPT中文平替。

据量子位分析智库数据,2024年6月,Kimi智能助手月访问总量达2200万。Kimi智能助手APP月新增下载量超300万,较5月增长速度提升50%。为了让大家更方便体验AI。7月8日,Kimi上线了浏览器插件,在大模型轻量应用上做出探索。

Kimi浏览器插件目前有“点问笔”和“总结器”两项功能。和月之暗面不谋而合的是,字节跳动旗下AI助手豆包此前也推出了浏览器插件版本。划线问和AI总结网页,这是用户在浏览网页时的痛点需求,Monica就凭借类似的浏览器插件能力,获得了几百万用户。kimi和豆包浏览器插件,预计也能占据很大的市场。

To C赛道上,6月份最重磅的玩家,要属腾讯旗下大模型应用“腾讯元宝”。作为多模态大模型底座上亮相的AI对话应用,还上线了深度搜索模式。在深度搜索模式下,元宝从深度和广度两方面对搜索内容进行拓展,并可同步至大纲、思维导图、相关人物事件梳理等,帮助用户掌握搜索内容。科大讯飞董事长刘庆峰表示,自去年9月全面开放以来,讯飞星火APP在安卓公开市场累计下载量达1.31亿次,在国内工具类通用大模型App中排名第一。

这个口径的第一,也让讯飞星火大模型有底气做发展路线的第三派,积极将大模型整合进硬件等产品中。一方面将大模型能力落地学习机、翻译机、办公本等自有智能硬件;另一方面,将大模型的能力深度赋能行业,正在落地汽车、家电、机器人、AI手机、AI PC等领域。

数据显示,科大讯飞AI学习机获得了2023年天猫&京东双十一销售额冠军。其新推出的智能批阅机可以一分钟扫描90份学生作业,平时教师一个半小时批改的工作任务批阅机5分钟就可以完成。走进教育、医疗场景中的科大讯飞,已经找到了自己的营收场景。

大模型5小虎难存活?商业化艰难的一步

6月份,梅花创投吴世春提到,“中国大模型五虎”想要跑出来非常难。"这句暴论在大模型圈引起了不少争论。的确,从统计到的数据看,目前大模型整体的商业化还比较基础。据『智能超参数』公开渠道统计到的数据,6月份大模型相关中标项目75个,其中:有30个项目,未披露中标金额(为方便统计,金额以0计算),其余45个中标项目披露的金额达到了1.38亿元。

大模型中标情况,来源:智能超参数

科大讯飞单月里中标的项目是8个,披露的中标金额为3895万元,百度单月中标项目7个,披露的中标金额2831万元。此外,商汤科技、阿里云、腾讯云、智谱AI等厂商也都有中标项目。在AI产业的浪潮中,虽然表面上看似繁荣,但商业化的挑战和艰难却是不容忽视的现实。

以科大讯飞和百度为例,这两家公司在单月内中标的数量和金额相对光鲜,但与巨大的研发投入相比,却显得有些杯水车薪。百度2023财报显示,百度投入研发费用为242亿元,同比增加4%;2023年科大讯飞的研发费用为34.81亿元,同比增长11.89%,投向星火大模型的费用规模便超20亿。

且根据华为高管公布的信息,开发和一次训练AI大模型的成本就高达1200万美元。从中标项目中看,大模型本身商业化还比较少。2024年6月份的统计数据来看,应用类和算力类的项目占据了绝对的主导地位,这两类的占比自2023年以来一直在90%以上,且应用类的占比还在逐渐增大。

大模型中标类别,来源:智能超参数

因此,尽管场面热闹,大模型应用的落地却大多还处于尝鲜、试点阶段,同质化现象严重,缺乏清晰的商业路径。更坏的消息是,尽管如此,国内大模型厂商们悄无声息地拉开了”价格战“的序幕。5月,字节跳动把Token的定价降低了一个数量级,从以分计价进入以厘计价时代。

业内戏言,大模型价格进入了“厘时代”。根据火山引擎公布的价格计算,1元就能买到豆包主力模型的125万Tokens,大约是200万个汉字。200万字是什么概念,大概相当于10本书。阿里通义、百度文心、智谱等相继开始跟进价格战。

同样的趋势也发生在国外。自去年以来,OpenAI已经进行了4次降价,在OpenAI发布了最新发布的多模态大模型GPT-4o中,不仅大模型性能有了很大提升,价格也下调了50%。大模型厂商们试图通过降低成本来推动大模型的普及和应用。

然而,这种策略虽然能够吸引用户尝试,但能否转化为持续的商业化成功,还有待市场的检验。AI大模型产业找到可行的商业模式,实现可持续的盈利,是所有AI企业需要面对的问题。

本文为转载内容,授权事宜请联系原著作权人。