正在阅读:

巨头围攻英伟达CUDA:用安卓模式打破算力霸权

扫一扫下载界面新闻APP

巨头围攻英伟达CUDA:用安卓模式打破算力霸权

日光之下无新事。

文|雷科技

过去一年多,硅谷掀起的生成式AI革命席卷全球,并愈演愈烈。而在这场革命有中两条非常明显的主线:

一是基础技术的进化,以GPT、Gemini为代表的大模型继续向着AGI(通用人工智能)迭代;

二是现象级应用的涌现,生成式AI在不同领域、不同场景下的应用狂潮在逐步改变人类的生活和工作方式,比如雷科技尤其关注的AI硬件领域,就出现了AI手机、AI PC、AI电视、AI家电、AI清洁等新应用。

在两条主线下,还有一条关于算力的「暗线」。

对AI的发展来说,算力短缺已经不是一天两天的问题,时至今日各大公司都还在继续抢购GPU,更确切地说,是英伟达的高端GPU:

如果说《沙丘》是「得香料者得天下」,那AI行业就是「得英伟达GPU者得天下」。

这也让整个行业对于英伟达GPU又爱又恨,一方面是基于CUDA平台的英伟达高端GPU可以简单、高效地进行人工智能训练,另一方面是所有人都过于依赖英伟达这一家公司。

CUDA是英伟达AI的基石

关于英伟达GPU成功原因的分析已经很多了,其核心主要还是英伟达GPU本身的高性能(包括互连性能),加上CUDA平台带来的软硬件协同效应。英伟达在硬件本身上的优势并不难逾越,问题关键在于软件,在于CUDA平台。

在前段时间的GTC 2024开幕演讲上,老黄也回顾了英伟达的发展史。

2014年,黄仁勋首次强调机器学习的重要性,当时AlphaGo尚未战胜李世石,深度学习并未引发世界级关注。不过当时英伟达已提出CUDA(通用计算平台)的概念,在许多人还在把英伟达当作「游戏显卡」的制造商时,其走在了AI变革前沿。

不过最初,CUDA的应用场景主要是科学计算,就是类似于气候模拟、物理模拟、生物信息学等专业研究,应用场景很有价值,但却狭窄。正因为此,英伟达的CUDA一直没有打开市场,带给英伟达的回报无法与对应的巨量研发投入匹配。黄仁勋每年都需要向董事会解释,为什么英伟达要坚持做CUDA?

其实当时老黄也不知道,英伟达的CUDA会在未来几年,先后迎来区块链“挖矿”、AI大模型计算等计算场景,真实泼天富贵。

短短两年时间,英伟达通过H100、H200芯片,缔造了万亿AI帝国,市值已超越亚马逊等传统豪强,按照这样的势头,在可见的未来,超越苹果、微软成为世界头号巨头也不是没有可能。

在被称为AI应用元年的2024,英伟达的CUDA(通用计算平台)正如其名,变得通用起来,从大语言模型、对话式AI、边缘计算等底层技术,到智能座舱、自动驾驶、人形机器人等应用场景,再到AI手机、AI PC、AI家电、AI搜索、AI绘画等应用,以及未来的气候预测、计算光刻与6G网络,AI正无处不在,英伟达的计算也无处不在,成为“通用计算”。

当英伟达的卡以及CUDA平台越来越重要时,其他科技巨头看到了“制霸”危机:

一方面,英伟达的卡价格不菲,且拥有绝对定价权,厂商们囤积GPU卡要给英伟达巨额资金,结果就是:做AI的不一定赚钱(当前几乎都不赚钱),英伟达却赚爆了。

另一方面,英伟达可以决定最顶尖的卡先给谁,给多少,给不给。此外,英伟达也依托GPU的计算资源向上层业务拓展,涉足云等业务,与科技巨头形成一定的竞争。

事实上从2023年开始,很多芯片厂商和大模型厂商都意识到了这些问题,纷纷希望通过另建一套软件平台对抗英伟达的CUDA。不能说所有尝试都失败了,只能说目前还没有出现真正的挑战者。

如今,一个新联盟和开源平台,可能会彻底改变英伟达CUDA一家独大的局面——如同当初谷歌振臂高呼组建的OHA联盟以及开源的安卓对抗苹果一般。因缘际会的是,在这一轮打破CUDA霸权的战争中,谷歌依然扮演了至关重要的角色,安卓阵营的高通、ARM们也在发挥各自的关键作用。

日光之下,无新事。

巨头组建联盟反抗CUDA

「整个行业都希望能干掉CUDA,包括谷歌、OpenAI等公司都在想方设法让人工智能训练更加开放。我们认为CUDA的护城河既浅又窄。」在去年年底的一场活动上,英特尔CEO帕特·基辛格(Pat Gelsinger)语出惊人地指出了对于英伟达CUDA平台的看法。

但即便基辛格认为CUDA的护城河「既窄又浅」,他也明白挑战在人工智能训练上挑战英伟达,绝非易事。

根据路透社报道,Linux基金会联合英特尔、谷歌、高通、ARM以及三星等公司成立了统一加速基金会(UXL),以英特尔的oneAPI为起点,正在开发一套开源软件套件,允许人工智能开发者在任何AI芯片上运行他们的代码。

这里需要简单介绍下,oneAPI是英特尔的统一编程模型和软件开发框架,可以让开发者无需对代码进行重大修改,就能借助oneAPI实现跨硬件架构(包括英特尔的CPU、GPU和FPGA)的程序开发。

简单来说,UXL就是在oneAPI的基础上更进一步,要实现更广泛的跨架构跨平台支持,解除芯片硬件与软件的强绑定关系。

而集合了芯片厂商、大模型厂商以及晶圆代工厂的UXL,无疑是想取代英伟达CUDA平台,成为全球人工智能开发者的首选开发平台。高通人工智能和机器学习主管Vinesh Sukumar就明确表示:

「我们实际上是在向开发者展示如何从英伟达平台迁移出来。」

甚至,UXL最终也将支持英伟达的硬件和代码。

而除了最初参与的创始成员,UXL还吸引了包括亚马逊AWS、微软Azure以及多家芯片厂商。同时根据规划,UXL预计在今年上半年确定技术规范,在年底前将技术细节完善成熟。

至于UXL能不能成功替代掉CUDA,成为全球人工智能开发者的首选平台,显然还需要一系列的证明,毕竟超越CUDA:

真的很难。

对抗CUDA,到底难在哪里?

首先我们需要明白,CUDA既是一种编程语言,也是一种编译器。

作为编程语言,CUDA是开发者通过CUDA与底层硬件(GPU)沟通、调用算力的一种方式,新建一套新的编程语言并不难。作为编译器,CUDA无疑有很高的性能,这意味着开发者可以通过CUDA在GPU上更高效地执行程序,用更容易理解的话说:

CUDA可以高效地利用GPU的峰值算力。

考虑到今天人工智能训练对于大算力、高性能的追求,也无怪乎开发者对于CUDA的偏爱。

但实际上英伟达在这两个层面上绝非天下无敌,尤其是OpenAI开源的Triton,不仅能在英伟达的GPU上实现接近CUDA的执行效率,还在合并AMD ROCm(对标CUDA)等平台的代码,兼容更多的GPU。

CUDA难以被撼动的关键在于,它还是一种生态。

去年台北电脑展上,老黄透露有400万开发者正在使用CUDA计算平台。而且在过去十几年间(CUDA推出于2007年),CUDA已经积累了大量的高性能程序库以及框架代码。这也是为什么尽管连OpenAI都吐槽用CUDA为GPU编程的难度,但更多开发者还是基于CUDA,而不是Triton进行开发。

另一方面,英伟达的软硬件协同设计也让这种优势更加牢不可破。

要知道,Triton可以兼容英伟达的GPU,其他GPU也可以兼容CUDA,甚至在效率上后来居上也并非不可能。但软件适配硬件需要时间,尤其是在GPU上需要更长的时间。

这意味着英伟达一旦发布新的GPU和CUDA版本,不管是兼容CUDA还是兼容英伟达的GPU,就需要重新追赶英伟达的脚步。

所以某种程度上,能打败英伟达的只有采用软硬件协同设计的策略,同时拥有强大的芯片能力和软件能力。

用“安卓模式”,打破英伟达算力霸权

谷歌拥有自己的TPU、XLA计算平台,还有自己的大模型和一系列算力「出口」。但谷歌这套并不外卖,所以包括Authropic(Claude母公司)、Midjourney都是通过谷歌云使用这一套算力解决方案,而没有选择购买英伟达的GPU。

从这角度来看,UXL虽然聚集了从晶圆代工厂到芯片厂商,再到云计算和大模型厂商,涵盖了AI芯片的主要上下游,但真正的挑战还在于不同成员之间的协同,这也是UXL能不能成功的关键。

如果没有足够的利益捆绑,每一个“联盟”都难成气候,聚集得多高调,涣散就有多迅猛。安卓生态能成功的关键在于,系统平台、半导体、硬件、开发者等等参与者能各取所需,一起将蛋糕做大。UXL是否能形成同样的正循环效应?当下,我们不知道答案。

年初,OpenAI Sam Altman语不惊人死不休,曝出计划筹集7万亿美元解决AI面对的算力问题。虽然这个数字惊掉了所有人的下巴,但也再一次地说明了,以OpenAI为代表的人工智能行业对于算力的极度渴求——在微软支持下,OpenAI也在布局自有芯片体系。

总而言之,英伟达不能满足所有人,所有人也不满足于只有一家英伟达。换句话说,不管UXL能不能成功,谷歌会不会改变策略,所有人都会继续挑战英伟达:

直到打破算力霸权。

本文为转载内容,授权事宜请联系原著作权人。

英伟达

6.7k
  • 黄仁勋:英伟达已经将AI应用于芯片设计、软件编写和供应链管理等领域
  • 英伟达或于12月宣布在泰国投资计划

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

巨头围攻英伟达CUDA:用安卓模式打破算力霸权

日光之下无新事。

文|雷科技

过去一年多,硅谷掀起的生成式AI革命席卷全球,并愈演愈烈。而在这场革命有中两条非常明显的主线:

一是基础技术的进化,以GPT、Gemini为代表的大模型继续向着AGI(通用人工智能)迭代;

二是现象级应用的涌现,生成式AI在不同领域、不同场景下的应用狂潮在逐步改变人类的生活和工作方式,比如雷科技尤其关注的AI硬件领域,就出现了AI手机、AI PC、AI电视、AI家电、AI清洁等新应用。

在两条主线下,还有一条关于算力的「暗线」。

对AI的发展来说,算力短缺已经不是一天两天的问题,时至今日各大公司都还在继续抢购GPU,更确切地说,是英伟达的高端GPU:

如果说《沙丘》是「得香料者得天下」,那AI行业就是「得英伟达GPU者得天下」。

这也让整个行业对于英伟达GPU又爱又恨,一方面是基于CUDA平台的英伟达高端GPU可以简单、高效地进行人工智能训练,另一方面是所有人都过于依赖英伟达这一家公司。

CUDA是英伟达AI的基石

关于英伟达GPU成功原因的分析已经很多了,其核心主要还是英伟达GPU本身的高性能(包括互连性能),加上CUDA平台带来的软硬件协同效应。英伟达在硬件本身上的优势并不难逾越,问题关键在于软件,在于CUDA平台。

在前段时间的GTC 2024开幕演讲上,老黄也回顾了英伟达的发展史。

2014年,黄仁勋首次强调机器学习的重要性,当时AlphaGo尚未战胜李世石,深度学习并未引发世界级关注。不过当时英伟达已提出CUDA(通用计算平台)的概念,在许多人还在把英伟达当作「游戏显卡」的制造商时,其走在了AI变革前沿。

不过最初,CUDA的应用场景主要是科学计算,就是类似于气候模拟、物理模拟、生物信息学等专业研究,应用场景很有价值,但却狭窄。正因为此,英伟达的CUDA一直没有打开市场,带给英伟达的回报无法与对应的巨量研发投入匹配。黄仁勋每年都需要向董事会解释,为什么英伟达要坚持做CUDA?

其实当时老黄也不知道,英伟达的CUDA会在未来几年,先后迎来区块链“挖矿”、AI大模型计算等计算场景,真实泼天富贵。

短短两年时间,英伟达通过H100、H200芯片,缔造了万亿AI帝国,市值已超越亚马逊等传统豪强,按照这样的势头,在可见的未来,超越苹果、微软成为世界头号巨头也不是没有可能。

在被称为AI应用元年的2024,英伟达的CUDA(通用计算平台)正如其名,变得通用起来,从大语言模型、对话式AI、边缘计算等底层技术,到智能座舱、自动驾驶、人形机器人等应用场景,再到AI手机、AI PC、AI家电、AI搜索、AI绘画等应用,以及未来的气候预测、计算光刻与6G网络,AI正无处不在,英伟达的计算也无处不在,成为“通用计算”。

当英伟达的卡以及CUDA平台越来越重要时,其他科技巨头看到了“制霸”危机:

一方面,英伟达的卡价格不菲,且拥有绝对定价权,厂商们囤积GPU卡要给英伟达巨额资金,结果就是:做AI的不一定赚钱(当前几乎都不赚钱),英伟达却赚爆了。

另一方面,英伟达可以决定最顶尖的卡先给谁,给多少,给不给。此外,英伟达也依托GPU的计算资源向上层业务拓展,涉足云等业务,与科技巨头形成一定的竞争。

事实上从2023年开始,很多芯片厂商和大模型厂商都意识到了这些问题,纷纷希望通过另建一套软件平台对抗英伟达的CUDA。不能说所有尝试都失败了,只能说目前还没有出现真正的挑战者。

如今,一个新联盟和开源平台,可能会彻底改变英伟达CUDA一家独大的局面——如同当初谷歌振臂高呼组建的OHA联盟以及开源的安卓对抗苹果一般。因缘际会的是,在这一轮打破CUDA霸权的战争中,谷歌依然扮演了至关重要的角色,安卓阵营的高通、ARM们也在发挥各自的关键作用。

日光之下,无新事。

巨头组建联盟反抗CUDA

「整个行业都希望能干掉CUDA,包括谷歌、OpenAI等公司都在想方设法让人工智能训练更加开放。我们认为CUDA的护城河既浅又窄。」在去年年底的一场活动上,英特尔CEO帕特·基辛格(Pat Gelsinger)语出惊人地指出了对于英伟达CUDA平台的看法。

但即便基辛格认为CUDA的护城河「既窄又浅」,他也明白挑战在人工智能训练上挑战英伟达,绝非易事。

根据路透社报道,Linux基金会联合英特尔、谷歌、高通、ARM以及三星等公司成立了统一加速基金会(UXL),以英特尔的oneAPI为起点,正在开发一套开源软件套件,允许人工智能开发者在任何AI芯片上运行他们的代码。

这里需要简单介绍下,oneAPI是英特尔的统一编程模型和软件开发框架,可以让开发者无需对代码进行重大修改,就能借助oneAPI实现跨硬件架构(包括英特尔的CPU、GPU和FPGA)的程序开发。

简单来说,UXL就是在oneAPI的基础上更进一步,要实现更广泛的跨架构跨平台支持,解除芯片硬件与软件的强绑定关系。

而集合了芯片厂商、大模型厂商以及晶圆代工厂的UXL,无疑是想取代英伟达CUDA平台,成为全球人工智能开发者的首选开发平台。高通人工智能和机器学习主管Vinesh Sukumar就明确表示:

「我们实际上是在向开发者展示如何从英伟达平台迁移出来。」

甚至,UXL最终也将支持英伟达的硬件和代码。

而除了最初参与的创始成员,UXL还吸引了包括亚马逊AWS、微软Azure以及多家芯片厂商。同时根据规划,UXL预计在今年上半年确定技术规范,在年底前将技术细节完善成熟。

至于UXL能不能成功替代掉CUDA,成为全球人工智能开发者的首选平台,显然还需要一系列的证明,毕竟超越CUDA:

真的很难。

对抗CUDA,到底难在哪里?

首先我们需要明白,CUDA既是一种编程语言,也是一种编译器。

作为编程语言,CUDA是开发者通过CUDA与底层硬件(GPU)沟通、调用算力的一种方式,新建一套新的编程语言并不难。作为编译器,CUDA无疑有很高的性能,这意味着开发者可以通过CUDA在GPU上更高效地执行程序,用更容易理解的话说:

CUDA可以高效地利用GPU的峰值算力。

考虑到今天人工智能训练对于大算力、高性能的追求,也无怪乎开发者对于CUDA的偏爱。

但实际上英伟达在这两个层面上绝非天下无敌,尤其是OpenAI开源的Triton,不仅能在英伟达的GPU上实现接近CUDA的执行效率,还在合并AMD ROCm(对标CUDA)等平台的代码,兼容更多的GPU。

CUDA难以被撼动的关键在于,它还是一种生态。

去年台北电脑展上,老黄透露有400万开发者正在使用CUDA计算平台。而且在过去十几年间(CUDA推出于2007年),CUDA已经积累了大量的高性能程序库以及框架代码。这也是为什么尽管连OpenAI都吐槽用CUDA为GPU编程的难度,但更多开发者还是基于CUDA,而不是Triton进行开发。

另一方面,英伟达的软硬件协同设计也让这种优势更加牢不可破。

要知道,Triton可以兼容英伟达的GPU,其他GPU也可以兼容CUDA,甚至在效率上后来居上也并非不可能。但软件适配硬件需要时间,尤其是在GPU上需要更长的时间。

这意味着英伟达一旦发布新的GPU和CUDA版本,不管是兼容CUDA还是兼容英伟达的GPU,就需要重新追赶英伟达的脚步。

所以某种程度上,能打败英伟达的只有采用软硬件协同设计的策略,同时拥有强大的芯片能力和软件能力。

用“安卓模式”,打破英伟达算力霸权

谷歌拥有自己的TPU、XLA计算平台,还有自己的大模型和一系列算力「出口」。但谷歌这套并不外卖,所以包括Authropic(Claude母公司)、Midjourney都是通过谷歌云使用这一套算力解决方案,而没有选择购买英伟达的GPU。

从这角度来看,UXL虽然聚集了从晶圆代工厂到芯片厂商,再到云计算和大模型厂商,涵盖了AI芯片的主要上下游,但真正的挑战还在于不同成员之间的协同,这也是UXL能不能成功的关键。

如果没有足够的利益捆绑,每一个“联盟”都难成气候,聚集得多高调,涣散就有多迅猛。安卓生态能成功的关键在于,系统平台、半导体、硬件、开发者等等参与者能各取所需,一起将蛋糕做大。UXL是否能形成同样的正循环效应?当下,我们不知道答案。

年初,OpenAI Sam Altman语不惊人死不休,曝出计划筹集7万亿美元解决AI面对的算力问题。虽然这个数字惊掉了所有人的下巴,但也再一次地说明了,以OpenAI为代表的人工智能行业对于算力的极度渴求——在微软支持下,OpenAI也在布局自有芯片体系。

总而言之,英伟达不能满足所有人,所有人也不满足于只有一家英伟达。换句话说,不管UXL能不能成功,谷歌会不会改变策略,所有人都会继续挑战英伟达:

直到打破算力霸权。

本文为转载内容,授权事宜请联系原著作权人。