界面新闻记者 |
界面新闻编辑 | 刘方远
蛇年除夕夜那晚,硅基流动创始人袁进辉没有留在饭桌上,而是在抓紧时间跟技术团队开会,为了尽快解决DeepSeek模型在国产芯片上的适配问题。
经过三天三夜的加班加点,他们联合华为和DeepSeek,赶在2月1日上线了基于国产芯片服务的DeepSeek-V3和DeepSeek-R1。此时,距离DeepSeek AI智能助手同时登顶中美两国App Store免费应用榜,还不到一周时间。
![](https://img3.jiemian.com/101/original/20250214/173952548215432600_a700xH.jpg)
也许是巧合,最近三年,每年春节前后都会赶上一波AI热潮。2023年,ChatGPT引爆了国内大模型创业热。2024年,视频生成模型Sora的突然亮相震撼了所有人。
而今年,主角变成了DeepSeek。这家技术开放但行事低调的中国公司,以一己之力改变了AI大模型的世界格局。
2024年底及2025年初,DeepSeek相继发布新一代MoE模型V3以及推理模型R1,凭借“高性能、低训练成本”和“对齐OpenAI o1”两项最直观的表现,引爆海内外。据Xsignal数据,截至2月8日,DeepSeek国内APP端日活为3494万,海外APP端日活达3685万,上线不到一个月时间就超过了其他同类应用,直追ChatGPT。
最先坐不住的是硅谷科技巨头Meta。原本Meta开发的Llama系列模型才是全球开源大模型的领头羊。如今,DeepSeek用不到其十分之一的成本做出了性能更好的模型,还免费开源了,这让Meta的“巨额成本开支”处境尴尬。
随后受到冲击的是英伟达。因为市场担忧DeepSeek带来的低成本模式会减少算力需求,英伟达市值一夜蒸发近6000亿美元,创下了美股单日最大跌幅纪录。随即,一众美股芯片股接连下跌。
冲击的另一面,几乎所有与大模型行业有关的企业,都在春节忙着加入这场巨浪,渴望承接背后的流量红利。全球范围的主流云厂商,无一例外迅速跟进部署DeepSeek API;华为昇腾之外多家国产AI芯片厂商,宣布适配DeepSeek不同尺寸模型。
国内投资者的热情也被瞬间点燃。由AI产业链公司构成DeepSeek概念股,包括算力基础设施、大模型技术与算法、应用场景等相关公司,已在二级市场连续多日普涨。
而在聚光灯外,大模型“六小虎”面临的行业质疑再度抬头。模型影响力,技术认可度,产品用户规模,看上去他们正在这些维度全面落后。但一年之前,“六小虎”们才是被资本选中要跟OpenAI打擂台的中国初创力量。
DeepSeek的此番影响就是如此之广。它既是对手的威胁,也是行业的东风。无论如何,它已成为2025年的绝对主角。
“来自东方的神秘力量”
在今年的达沃斯论坛上,无论是否身处科技圈,许多老外都会向 Fusion Fund 创始合伙人张璐打听起DeepSeek——这家他们最近刚刚听闻的中国公司。
甚至在Fusion Fund内部,张璐的合伙人,在AI和深度学习领域有超过20年经验的David Gerster,也一直在群里问她:你对这家公司了解多少?你认识这家公司的创始人吗?
仿佛一夜之间,所有人都想了解DeepSeek横空出世的背景。
不同于其他大模型公司,成立于2023年的DeepSeek脱胎于知名量化基金幻方量化,目前没有进行任何外部融资。公司创始人梁文锋1985年出生于广东湛江,2010年从浙江大学毕业,之后一直在从事量化交易相关工作,并创立了杭州幻方。
![](https://img2.jiemian.com/101/original/20250214/173952900333946600_a700xH.jpg)
DeepSeek成立之后也异常低调,几乎没有进行任何对外宣传。但是在AI技术圈,自去年年中起,这家公司就凭借 DeepSeek-V2 在 MLA 等方面的创新得到了业内认可,被硅谷视作一股“来自东方的神秘力量”。
张璐告诉界面新闻记者,半年多以前,OpenAI和Anthropic的员工就在谈论这家公司。当时,主要是因为它在开源生态中十分活跃,而行业格外关注新模型在架构层面的创新。
在Meta从事大模型相关工作的华人员工马克(化名)也对界面新闻记者表示,他们去年就关注到了DeepSeek,但当时只觉得“这是中国第一梯队的模型,还不是世界级的,比OpenAI等更是差上一截。”
但是,最近DeepSeek-V3和DeepSeek-R1的出现成为一个转折点。特别是DeepSeek-R1引爆了用户端,它是首个复现OpenAI o1推理模型能力的开源大模型,而且完全免费。
DeepSeek叠加的四层“Buff”也让硅谷的华人工程师们不得不佩服:纯中国团队,算力资源有限,效果打败或持平美国最先进模型,并且完全开源。
马克和同事们对此讨论了很多,核心观点是:“如果DeepSeek花这么一些钱就可以训练出这么好的模型,那我们花这么多钱在干嘛?”
Meta员工此前在美国匿名职场社区上发帖爆料称,公司已经成立了四个专门的研究小组分析研究DeepSeek V3模型的工作原理。内部认为,DeepSeek V3的综合性能已超越Llama 3,公司担心计划推出的下一代模型Llama 4也有“落后的可能”。
张璐推断说,“Llama 4一定会参考DeepSeek现在的算法模型。”事实上,现在全行业都在学习参考DeepSeek成功的秘密。
据DeepSeek开发团队介绍,V3模型采用了模型压缩、多头潜在注意力机制(MLA)、混合专家模型(MoE)、FP8混合精度训练等一系列创新技术降低成本,R1模型又有组相对策略优化算法(GRPO)这一重要创新。
摩尔线程市场生态高级总监吕其恒告诉界面新闻,DeepSeek的核心突破在于算法优化和算力效率的提升,虽然模型项目开源,但公司独有的这些技术具有相当高的壁垒,需要大量工程师团队投入研发和工程优化,其他公司短期内很难直接复制,但行业依然能从DeepSeek的创新中获得灵感。
张璐自己在硅谷最明显的感受是,之前OpenAI和Anthropic在谈到DeepSeek的时候,不会觉得“他们会比我们做得更好”,而现在,“尤其是OpenAI,可能会把DeepSeek作为一个竞争对手。”OpenAI CEO山姆·奥特曼更是在近期一场播客上直言,有计划跟DeepSeek团队进行一场交流。
搅动算力市场
以“鲸鱼”为标志的DeepSeek,如今被视为一条搅动全球科技市场的“鲶鱼”。
中信建投证券研究所所长武超则向界面新闻记者表示,DeepSeek的 “鲶鱼效应” 最直观的体现,便是其掀起的“AI降本浪潮”——未来大家都能以更低的成本开发大模型。
据DeepSeek官方论文介绍,DeepSeek训练V3模型使用了2048张英伟达H800 GPU,完整训练消耗了278.8万个GPU小时,按照租赁价格每小时2美元计算,成本约为557.6万美元。
作为对比,Llama-3.1动用了超过1.6万张英伟达H100GPU训练,训练成本高达数亿美元,GPT-4o模型的训练成本业内估计在1亿美元上下。
Anthropic创始人Dario Amodei在个人播客网站上撰文称,虽然“用600万美元实现数十亿美元投入效果”的说法在传播上被严重夸大,但DeepSeek所做的创新确实大幅降低了成本。更令硅谷震惊的是,当全球都在追求降低AI模型成本时,“第一个做到的是家中国公司。”
华尔街再次对AI算力泡沫心生恐慌。投资者们担心,未来DeepSeek的低成本模式一旦推广,科技公司是否还需要持续大量购入英伟达先进的AI芯片支持模型开发?
在美股市场芯片股1月27日受到的重挫中,英伟达跌超17%,台积电跌超13%,阿斯麦跌5%。
![](https://img1.jiemian.com/101/original/20250214/173952565159136400_a700xH.jpg)
不过,英伟达在股价暴跌隔日发给界面新闻的声明中强调, 在中国大陆AI算力资源受限的背景下,DeepSeek主要在AI模型推理阶段运用了创新技术,但推理仍然需要大量英伟达GPU及配套的高性能网络技术。DeepSeek的进步不仅不意味算力过剩,“反而证明市场需要更多AI芯片”。
市场近期正流行用一项经济学经典理论“杰文斯悖论”(Jevons Paradox)来解释算力市场的供需变化。即一项技术创新在降低成本、提高效率的同时,资源消耗非但不会减少,反而会因成本降低和应用范围扩大而急剧增加。
事实上,最近微软、亚马逊、Meta、谷歌等巨头都相继在各自的财报会上表态大幅增加2025年的资本开支,重点投资数据中心等AI基建项目。四家巨头2025年资本支出总额将超过3200亿美元,总增速约为30%。
此外,OpenAI、软银、甲骨文等多家公司联合发起了一项“星际之门”AI基建计划(The Stargate Project),该计划要在2029年之前在算力市场投资高达5000亿美元,第一笔初始投资1000亿美元。
英国GPU公司Imagination产品管理副总裁Dennis Laudick在采访中告诉界面新闻,DeepSeek所做的创新属于一种降低人工智能功耗与优化效率的进步。“任何工作负载的简化都能让算力资源得到更充分利用,未来对算力的需求将持续超过供给。”
“现在就连DeepSeek自己都因为服务器不够用网站频繁卡顿。事实上,算力市场相当长时间内都处在一个高增长扩容的周期。”武超则说。因此无论从巨头资本开支的基本盘,还是更多公司对推理端算力的新增投资,算力泡沫都看不到有破裂的迹象。
另外,在业内人士看来,DeepSeek的创新对国产算力芯片也是一大利好。比如DeepSeek用到的FP8混合精度算力训练,这种混合低精度的训练方法在一定程度上可弥补国内芯片硬件性能的不足,提供了更多软件算法的创新空间,像摩尔线程已将相应技术引入产品中。
AI六小虎被“卷”到
月之暗面联合创始人张予彤最近更新了一条朋友圈,她发出一张Kimi用户量增长图,在配文中称“很高兴Kimi新版本上线后用户量又创新高”。
很多人不知道的是,月之暗面最新版大模型Kimi1.5是跟DeepSeek-R1在同一天发布的,但完全被淹没在了铺天盖地的DeepSeek浪潮之中。
月之暗面的总部,离DeepSeek北京团队所在的融科资讯中心的直线距离不足1公里。去年春节,DeepSeek还默默无闻,而月之暗面因为拿下了阿里的巨额投资声名鹊起,跻身大模型创业“六小虎”头部。
如今,一年时间过去,无论是技术创新,产品认知,抑或是企业影响力,DeepSeek无可置疑已经一飞冲天,迈入世界级的擂台了。而“六小虎”们各有各的难题。
李扬(化名)整个蛇年春节都是在加班中度过的,他在“六小虎”其中一家从事AI infra的优化工作。虽然在他看来,DeepSeek-V3的MFU(模型算力利用率)在其模型架构下是合理的,但作为成本控制极为重要的一环,其所在团队的工作仍被施加了压力。
不只是李扬,有多位“六小虎”员工告诉界面新闻,他们只在除夕和大年初一休假,其他时间照常扑在了工作上。据界面新闻记者了解,其中一家公司的算法团队几乎整个假期都在加速推进自己推理模型的参数scale up。
一名在“六小虎”就职的技术负责人表示,最近工作氛围的确变紧张了,因为看到了大众对AI的高期待。公司总体会保持原有的迭代节奏,“但有些项目的优先级可能会有调整”。
一名大模型领域投资人对界面新闻记者表示,因为DeepSeek的爆火,“六小虎”接下来的融资和估值会全面受到影响。据其了解,现在参投某大模型公司的一家国资,已经在内部被质疑当初为什么选择投那家公司?“这其实也是一种问责。”
眼下,“六小虎”走出自己核心差异化路线的紧迫感,比过去任何时候都要突出:如果不继续烧钱创新,它们的预训练模型和推理模型都很难打过DeepSeek;但如果不做预训练,又难以撑起下一次融资的估值。
而在第一条路上更艰难的是,DeepSeek还极可能冲击了闭源生态。朱啸虎直言,在中国,只有互联网大厂有继续卷闭源模型的意义。
事实上,就连互联网大厂的闭源生态堡垒也出现了裂缝。一直被视为业内最坚定走闭源路线的百度,也于2月14日正式宣布,将在未来几个月推出文心大模型4.5系列,并从6月30日起首次开源。
去年在业内争论模型开源与闭源模式之争最激烈的时候,百度创始人李彦宏曾在多个场合公开力挺闭源模式,直言“开源模型是智商税”。前后一年时间不到,无论百度当下的选择出于主动还是被动,这样180度的大转弯都令行业不得不重新审视开源与闭源模式的未来。
“中国闭源大模型几乎成为一个死局了。”前述投资人也如此表示。
分一杯羹
在DeepSeek今年春节爆火的一个月之前,梁文锋曾问过袁进辉,要不要在他们的平台上部署DeepSeek-V3模型。袁进辉创办的硅基流动主做大模型云服务平台,为生成式AI提供基础设施。
梁文锋当时建议,如果要部署的话,最好要准备80台H100服务器。袁进辉接着算了一笔账,发现一个月对应需要五六百万元成本,于是没有下注。转眼DeepSeek火遍全球,他顿感“决策失误,欲哭无泪”。
看着DeepSeek不断创造奇迹的时候,袁进辉内心焦急但苦于没有资源。一个同事突发奇想,“用国产卡吧!”这个想法也得到了华为昇腾云团队的大力支持,这也就有了开头的故事。
此后的袁进辉在社交平台上变成一个活跃的“客服号”,不断反馈产品体验的不足,以及将要加强改善的地方。因为抓住时机而卷入DeepSeek流量漩涡,袁进辉话里话外不外乎“传播速度太快了、用户太多了、需求太大了”。
“参与”DeepSeek的狂欢成为一个行业共识,尤其是云厂商。在DeepSeek因为访问量太大频频出现“服务器繁忙,请稍后再试”的时候,无处可去的流量转向接入了DeepSeek的云平台。
这一波外企的动作反而更加迅速。1月最后两天,微软Azure、亚马逊AWS先后宣布上线DeepSeek-R1,谷歌云也随即发布了R1部署指南。2月第一周,除硅基流动及华为昇腾云外,腾讯云、阿里云、百度智能云、火山引擎、京东云等厂商,均宣布接入R1推理模型,部分同时引入了V3。
不仅如此,此前在AI领域声量并不突出的三大电信运营商,中国移动、中国电信、中国联通相继在其云服务中上线DeepSeek模型。
芯片厂商中,英伟达NVIDIA NIM引入R1,AMD则将V3集成到Instinct MI300X GPU上,并针对AI推理进行了优化。国产芯片厂商摩尔线程、沐曦、壁仞、天数智芯集体宣布部署适配DeepSeek模型。
即便是其他大模型同行,也开始接入DeepSeek。昆仑万维就是最早一批行动起来的。这家公司不仅有自己的天工大模型,也打造了推理模型。但昆仑万维还是在其“天工AI”上线了“DeepSeekR1+联网搜索”功能。
![](https://img3.jiemian.com/jiemian/original/vcg_new/20250111/46/1736535990632_a700xH.jpg)
昆仑万维CEO方汉的心态很开放,他告诉界面新闻记者,公司并不是受到冲击而调整策略,而是确信这样做更有利于用户体验。他观察到,在加入了R1之后,用户使用天工AI搜索的平均时长的确明显变长了。
另外出人意料的是,腾讯元宝也在自有混元大模型的情况下接入了DeepSeek R1。这也是第一个在其C端AI助手中接入R1的互联网大厂。
AI产业链的东风已至
DeepSeek突然火遍全球之后,美国政界又出现了更多声音,呼吁对华进行更强力的芯片管制。但也有人反思,或许正是高端芯片管制倒逼着DeepSeek做出了这些在算法架构和工程上的创新。
方汉认为,算力限制只能在短期形成一定壁垒,长期来看,当中国的算力被限制,中国研究人员优化硬件效率的欲望只会更强。“万一Scaling Law最后真的是靠算法而不是算力来实现,美国人的愿景就会落空。”方汉说。
受DeepSeek的启发,方汉已经考虑在昆仑万维后续的模型训练中应用GPRO等算法。他甚至认为这是“T0级别”的创新,“未来怎么把它泛化到除了数学跟编程之外的其他的垂类领域,以及其他的模态,我认为这是非常有价值的。”
除了像昆仑万维这样的企业,更多的下游应用公司也将搭上DeepSeek的东风。
以教育公司为例,最近好未来、网易有道、云学堂、中公教育、猿辅导、读书郎等一众教育机构密集接入DeepSeek,覆盖从线上教育、职业培训、个性化学习到企业员工培训等各类业务。有行业人士甚至将之称为“教育AI真正的诺曼底时刻”。
好未来CTO田密对界面新闻称,团队从最早的V1版本就在追踪DeepSeek的进展,并应用自己的业务中。“从结果来看,他们做得很棒。”
国产手机厂商也在忙着加入,华为、荣耀、OPPO、vivo、魅族、红魔、努比亚等纷纷宣布接入DeepSeek-R1。其中一家手机厂的AI负责人告诉界面新闻,DeepSeek对手机厂商最大的影响是开源,以及终于可以把高成本的推理模型布局在手机这种消费品上,未来他们会考虑蒸馏小的端侧模型。
证券行业也已经被DeepSeek席卷。截至目前,包括中金财富、国泰君安、华福证券、广发证券、国金证券、兴业证券等近20家券商宣布完成DeepSeek模型的本地化部署。应用场景主要聚焦于智能投研、客服、投顾、IT运维、风控、市场营销等领域。
比如国金证券相关负责人就表示,其基于DeepSeek打造的“深度思考”产业链智能挖掘系统已投入应用。
DeepSeek也给应用创业带来了更多机会。尽管现在DeepSeek做出了全中国乃至全世界最好用的开源模型,但应用方向是庞杂的,DeepSeek无法满足所有长尾需求。
正如梁文锋在此前受访时谈到对于大模型终局的预期:未来会有专门提供基础模型和服务的公司,形成一个长产业链的专业分工体系。更多公司将在这些基础之上,为社会的多元需求提供解决方案。
过去追着投基础大模型的投资人们,已经开始把更多精力放在了“AI应用”上。
云启资本合伙人陈昱判断,2025年可能会涌现大批ISV公司利用开源大模型以低成本服务市场,这背后会滋生大量独立小厂的机会。
在模型能力提升之后,完全自动化而非co-pilot模式的应用场景潜力更加突出。“就像自动驾驶一样,在技术不够好的时候,L2就可以满足需求,但技术足够好的话,大家还是更想要L4。”
最近,市场已经传出DeepSeek正在以80亿美元估值融资的消息。陈昱认为,当下VC再去围追堵截DeepSeek没有任何意义,眼下更重要的是将目光转向AI产业链的其他变革机会上,例如具身智能、边缘计算、智能硬件,还有众多独立应用的机会。
“投不到大模型本身,你还可以提前布局它的周边。”他说,“这里是更百花齐放的。”
(界面新闻记者查沁君、陆柯言、孙艺真对本文亦有贡献)
评论