国产大模型追赶OpenAI到哪一步了？|界面新闻

文｜AI鲸选社陈佳惠

编辑｜杨晓鹤

“钉钉也有OpenAI的API接口，但是我们主要的合作伙伴是国内的大模型五小虎。”

在钉钉最新的AI改版采访会上，钉钉总裁不穷说道，大家可以在钉钉上调用通义或者Kimi等很多大模型。这也意味着，五小虎在钉钉这个日活数亿的平台，不用面对最强大的对手。也不仅是在办公平台中，在国内诸多AI业务场景中，国产大模型都不用面对ChatGPT了。

这无疑对很多国产大模型是一个利好的消息。尽管微软云还能提供API支持，但如今Azure也在有意减少在华业务，因此带来的竞争压力几乎没有。

更关键的是，ChatGPT的更新速度也明显放缓，尽管OpenAI创始人Sam Altman在演讲中表示：“Scaling laws依旧有效，GPT-5将比GPT-4聪明得多，我们还没有到达这条曲线的顶端”。但GPT-5将会何时发布，还是个未知数。

这也意味着，过去一年半时间，国产大模型一直能狂追，ChatGPT-4o珠玉在前，国产大模型已经追赶到哪里了？

2024年主流大模型能力测评图

差距缩短到半年，集体进化到Turbo水平

2023年大模型领域，争吵的最大话题，是国产大模型到底距离OpenAI，还有多远的差距。百度创始人李彦宏说只差两个月，王小川说怎么可能，如今这一答案基本明了。

ChatGPT-4 Turbo是在2023年11月7日的OpenAI开发者大会上发布，让当时的大模型界振聋发聩。但距离GPT上次更新已遥遥8个月，国产大模型在这期间分秒必争，如今基本宣布自己已经达到或超过ChatGPT-4 Turbo，也即意味着差距至少在半年之久。

但也有个别领域差异化领先，全球著名开源平台huggingface（笑脸）的联合创始人兼首席执行官Clem在社交平台宣布，阿里最新开源的Qwen2-72B指令微调版本，成为开源模型排行榜第一名。

这一成绩振奋人心。不仅如此，根据排行榜的数据显示，Meta开源的Llama-3-70B指令微调版本位列第2；阿里的Qwen2-72B基础版本排名第3；第9和第10名，全部都是阿里之前开源的Qwen1.5基础和Chat版本。

阿里的开源大模型不仅在前十名中占据了4个坑位，还超越了科技巨头Meta的Llama-3-70B。Llama号称是众多国产大模型之母，不少国产大模型都辟谣过关系，这次终于实现了超越。不仅阿里通义，智谱AI也是开源路上一员猛将。智谱开源了其第四代的GLM模型—GLM-4-9B。

GLM-4-9B开源模型综合能力相比 ChatGLM3-6B 提升 40% ，中文学科能力提升 50%，最高支持达 1 百万 tokens 长文本，支持 26 种语言。闭源大模型的竞争更加激烈，各家最新版本纷纷称超越ChatGPT-4 Turbo。6月21日，不走AGI、更强调行业落地路线的华为盘古大模型 5.0正式发布。盘古大模型 5.0 声称能够更好地理解物理世界，包括文本、图片、视频、雷达、红外、遥感等更多模态。已在30多个行业、400多个场景中落地。

接下来的6月27日，科大讯飞在北京发布讯飞星火大模型V4.0。并且，讯飞星火V4.0是基于全国首个国产万卡算力集群“飞星一号”训练而成。科大讯飞董事长刘庆峰称，讯飞星火参与国内外中英文12项大模型主流测试集，其中8个测试集中排名第一，超越GPT-4 Turbo等国际大模型。其在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面也实现对GPT-4 Turbo的超越。

虽然星火大模型在各种整体评分中，很多时候不在国产大模型前三甲，但有项能力国际领先，这次发布的星火语音大模型，据悉在数十个主流语种的语音识别效果层面，超过OpenAI Whisper V3，而多语种语音合成方面，星火语音大模型拟人度则已超83%。

大模型迭代热还在继续，紧接着的6月28日，百度在Wave Summit上直接发布了大幅强化检索能力的文心大模型——文心大模型4.0 Turbo。文心大模型4.0 Turbo，可以通过文心一言的网页端和APP端使用，同时面向开发者提供了API支持。

文心4.0 Turbo模型强化了检索能力，全网搜索、分析资料、等待回复这些步骤的融合，不仅提高了回答的速度，也在一定程度上缓解了大模型回答中“幻觉”的问题。

同时，百度飞桨发布新一代飞桨框架3.0 Beta版本，具备大模型训推一体、动静统一自动并行、编译器自动优化以及大模型多硬件适配等特色。训推一体的统一有利于推理优化，也能降低大模型的开发成本，可以帮助大模型实现更快迭代。多模态领域，腾讯混元大模型的Di-T架构和阶跃星辰的1T-MoE多模态的感知能力，算是领域惊喜。

腾讯混元大模型号称全球最早的Di-T架构，虽然大模型发布的晚，但好在架构先进。当然也得感谢Sora，这个期货产品，让市场形成Di-T架构是多模态大模型未来的共识。

阶跃星辰在7月的WAIC上发布万亿级参数MoE（混合专家）大语言模型Step-2正式版，Step-1.5V多模态大模型，以及Step-1X 图像生成大模型。对多模态大模型的Step-2理解在行业领先，未来表现值得期待。

沉睡的CV巨头商汤也开始发力，WAIC上发布流式原生多模态交互模型——6000亿参数日日新5.5系列大模型，其中5o版本有类似ChatGPT-4o类似的交互能力。

国产大模型们逐渐走出了“不断追赶GPT-4”的叙事线。从技术角度看，国产大模型和ChatGPT-4o的差距一直在缩小，多模态领域甚至有了并肩前行的感觉。

AI应用还未爆发，各家争NO.1 的口径

“没有应用，开源闭源模型都一文不值。”李彦宏最近频频阐述自己的AI理念，“要跳出移动时代的思维逻辑，避免掉入“超级应用陷阱”，不是只有10亿DAU的应用才叫成功。”话虽说如此，但这场AI应用的暗战，没有人会放松。

据量子位分析智库显示，豆包AI的6月份的APP端下载量位居榜首，达到了5000万。文心一言的下载总量达到1400万，暂时位列第三。但百度公布的另一维度数据是第一：文心一言用户规模达到3亿，日调用量超过了5亿。这是百度Wave Summit 2024大会上公布的数字。文心一言曾在去年12月公开用户规模首次破亿；两三个月前日均调用量也在2亿。

时隔六个月，文心一言的用户数量已翻了三倍，增长迅猛。现如今，文心一言达成“每5个人中就有1个人用过”的成绩，百度在发展大模型的路径上，除了全面AI化百度系应用，诸如百度文库经过AI大模型改造后，目前付费用户也已有2600万。最重要的发展方向是智能体。

在WAIC上，李彦宏坦言，智能体是百度最看好的AI发展方向。智能体也是当下AI走进C端的最佳形象。李彦宏表示，制作智能体的门槛并不高：只需要对着大模型把工作流程讲清楚，就可以生成一个有价值的智能体。

数据显示，文心大模型星河共创计划启动一年以来，文心大模型也已经和众多合作伙伴、开发者一起，共创了55万个AI应用。

尽管很多AI应用不到千个使用次数，但智能体确实能实现多步复杂流程的AI调用。大模型产品化中独树一派的选手要属月之暗面的Kimi和豆包App，这是少数专注To C的选手，旗下产品Kimi AI非常适合案头等工作场景中应用，支持200万汉字的长文本输入，主打无损记忆以及“长文本”，被网友称为ChatGPT中文平替。

据量子位分析智库数据，2024年6月，Kimi智能助手月访问总量达2200万。Kimi智能助手APP月新增下载量超300万，较5月增长速度提升50%。为了让大家更方便体验AI。7月8日，Kimi上线了浏览器插件，在大模型轻量应用上做出探索。

Kimi浏览器插件目前有“点问笔”和“总结器”两项功能。和月之暗面不谋而合的是，字节跳动旗下AI助手豆包此前也推出了浏览器插件版本。划线问和AI总结网页，这是用户在浏览网页时的痛点需求，Monica就凭借类似的浏览器插件能力，获得了几百万用户。kimi和豆包浏览器插件，预计也能占据很大的市场。

To C赛道上，6月份最重磅的玩家，要属腾讯旗下大模型应用“腾讯元宝”。作为多模态大模型底座上亮相的AI对话应用，还上线了深度搜索模式。在深度搜索模式下，元宝从深度和广度两方面对搜索内容进行拓展，并可同步至大纲、思维导图、相关人物事件梳理等，帮助用户掌握搜索内容。科大讯飞董事长刘庆峰表示,自去年9月全面开放以来,讯飞星火APP在安卓公开市场累计下载量达1.31亿次，在国内工具类通用大模型App中排名第一。

这个口径的第一，也让讯飞星火大模型有底气做发展路线的第三派，积极将大模型整合进硬件等产品中。一方面将大模型能力落地学习机、翻译机、办公本等自有智能硬件；另一方面，将大模型的能力深度赋能行业，正在落地汽车、家电、机器人、AI手机、AI PC等领域。

数据显示，科大讯飞AI学习机获得了2023年天猫&京东双十一销售额冠军。其新推出的智能批阅机可以一分钟扫描90份学生作业，平时教师一个半小时批改的工作任务批阅机5分钟就可以完成。走进教育、医疗场景中的科大讯飞，已经找到了自己的营收场景。

大模型5小虎难存活？商业化艰难的一步

6月份，梅花创投吴世春提到，“中国大模型五虎”想要跑出来非常难。"这句暴论在大模型圈引起了不少争论。的确，从统计到的数据看，目前大模型整体的商业化还比较基础。据『智能超参数』公开渠道统计到的数据，6月份大模型相关中标项目75个，其中：有30个项目，未披露中标金额（为方便统计，金额以0计算），其余45个中标项目披露的金额达到了1.38亿元。

大模型中标情况，来源：智能超参数

科大讯飞单月里中标的项目是8个，披露的中标金额为3895万元，百度单月中标项目7个，披露的中标金额2831万元。此外，商汤科技、阿里云、腾讯云、智谱AI等厂商也都有中标项目。在AI产业的浪潮中，虽然表面上看似繁荣，但商业化的挑战和艰难却是不容忽视的现实。

以科大讯飞和百度为例，这两家公司在单月内中标的数量和金额相对光鲜，但与巨大的研发投入相比，却显得有些杯水车薪。百度2023财报显示，百度投入研发费用为242亿元，同比增加4%；2023年科大讯飞的研发费用为34.81亿元，同比增长11.89%，投向星火大模型的费用规模便超20亿。

且根据华为高管公布的信息，开发和一次训练AI大模型的成本就高达1200万美元。从中标项目中看，大模型本身商业化还比较少。2024年6月份的统计数据来看，应用类和算力类的项目占据了绝对的主导地位，这两类的占比自2023年以来一直在90%以上，且应用类的占比还在逐渐增大。

大模型中标类别，来源：智能超参数

因此，尽管场面热闹，大模型应用的落地却大多还处于尝鲜、试点阶段，同质化现象严重，缺乏清晰的商业路径。更坏的消息是，尽管如此，国内大模型厂商们悄无声息地拉开了”价格战“的序幕。5月，字节跳动把Token的定价降低了一个数量级，从以分计价进入以厘计价时代。

业内戏言，大模型价格进入了“厘时代”。根据火山引擎公布的价格计算，1元就能买到豆包主力模型的125万Tokens，大约是200万个汉字。200万字是什么概念，大概相当于10本书。阿里通义、百度文心、智谱等相继开始跟进价格战。

同样的趋势也发生在国外。自去年以来，OpenAI已经进行了4次降价，在OpenAI发布了最新发布的多模态大模型GPT-4o中，不仅大模型性能有了很大提升，价格也下调了50%。大模型厂商们试图通过降低成本来推动大模型的普及和应用。

然而，这种策略虽然能够吸引用户尝试，但能否转化为持续的商业化成功，还有待市场的检验。AI大模型产业找到可行的商业模式，实现可持续的盈利，是所有AI企业需要面对的问题。

文｜AI鲸选社陈佳惠

编辑｜杨晓鹤

“钉钉也有OpenAI的API接口，但是我们主要的合作伙伴是国内的大模型五小虎。”

这无疑对很多国产大模型是一个利好的消息。尽管微软云还能提供API支持，但如今Azure也在有意减少在华业务，因此带来的竞争压力几乎没有。

这也意味着，过去一年半时间，国产大模型一直能狂追，ChatGPT-4o珠玉在前，国产大模型已经追赶到哪里了？

2024年主流大模型能力测评图

差距缩短到半年，集体进化到Turbo水平

沉睡的CV巨头商汤也开始发力，WAIC上发布流式原生多模态交互模型——6000亿参数日日新5.5系列大模型，其中5o版本有类似ChatGPT-4o类似的交互能力。

国产大模型们逐渐走出了“不断追赶GPT-4”的叙事线。从技术角度看，国产大模型和ChatGPT-4o的差距一直在缩小，多模态领域甚至有了并肩前行的感觉。

AI应用还未爆发，各家争NO.1 的口径

数据显示，文心大模型星河共创计划启动一年以来，文心大模型也已经和众多合作伙伴、开发者一起，共创了55万个AI应用。

大模型5小虎难存活？商业化艰难的一步

大模型中标情况，来源：智能超参数

大模型中标类别，来源：智能超参数

历史搜索全部删除

热门搜索

国产大模型追赶OpenAI到哪一步了？

差距缩短到半年，集体进化到Turbo水平

AI应用还未爆发，各家争NO.1 的口径

大模型5小虎难存活？商业化艰难的一步

OpenAI

评论

国产大模型追赶OpenAI到哪一步了？

差距缩短到半年，集体进化到Turbo水平

AI应用还未爆发，各家争NO.1 的口径

大模型5小虎难存活？商业化艰难的一步