正在阅读:

芯片大佬领衔,攻英伟达漏洞

扫一扫下载界面新闻APP

芯片大佬领衔,攻英伟达漏洞

随着各路玩家竞相投入,AI芯片市场呈现百家争鸣之势。

文|半导体产业纵横

​最近,芯片界传奇人物、处理器设计大佬、Tenstorrent现任首席执行官吉姆·凯勒(Jim Keller)在接受采访时表示,英伟达没有很好地服务于很多市场,因此,Tenstorrent和其它新创AI处理器研发公司是有机会的。

Jim Keller曾任职于多家大牌企业,包括AMD,英特尔、苹果和特斯拉。1998~1999年,Jim Keller在AMD主导了支撑速龙系列处理器的K7/K8架构开发工作,2008~2012年,在苹果牵头研发了A4、A5处理器,2012~2015年,在AMD主持K12 Arm项目和Zen架构项目,2016~2018年,在特斯拉研发FSD自动驾驶芯片,2018~2020年,在英特尔参与了神秘项目。

现在,Jim Keller在Tenstorrent领导AI处理器的开发,可以为英伟达昂贵的GPU提供价格合理的替代品,英伟达的GPU每个售价20,000 ~ 30,000美元或更多,Tenstorrent 称,其Galaxy系统的效率是英伟达DGX的3倍,成本低33%。做高性能AI应用处理器的产品替代是Tenstorrent工作的一部分,但不是全部,该公司的业务宗旨是服务英伟达未能解决的市场痛点,尤其是在边缘计算领域。

01、边缘计算AI地位提升

随着海量数据持续增加,以及对计算和存储系统实时性和安全性要求的提升,数据中心已经不能满足市场和客户的需求,市场要求相关软硬件系统提供商找到更快捷的方式来服务客户,以提高运营效率并降低成本。

在边缘运行AI工作负载的边缘到云解决方案有助于满足这一需求,将算力放在靠近数据创建点的网络边缘,对于要求近乎实时的应用至关重要,在本地设备上处理算法和数据等,而不是将这些工作负载传送到云或数据中心。

随着5G和物联网的发展,AI芯片在边缘运算领域的应用前景十分广阔,例如,自动驾驶汽车、智慧城市等场景,都需要在终端装置上进行实时的AI推理。为此,多家厂商纷纷推出了专用于边缘推理的AI芯片。

在制造业,本地运行的AI模型可以快速响应来自传感器和摄像头的数据,以执行重要任务。例如,汽车制造商使用计算机视觉扫描装配线,以在车辆离开工厂之前识别车辆的潜在缺陷。在这样的应用中,非常低的延迟和始终在线的要求使得在整个网络中来回传送数据变得不切实际。即使是少量的延迟也会影响产品质量。

另外,低功耗设备无法处理大的AI工作负载,例如训练计算机视觉系统所依赖的模型。从边缘到云的整体解决方案结合了两端的优势,后端云为复杂的AI工作负载提供可扩展性和处理能力,前端边缘设备将数据和分析紧密地结合在一起,以最大限度地减少延迟。

以Arduino低功耗边缘设备为例,许多这类设备的成本不到100美元,用户可以组合运行机器学习模型的几台或数千台设备。例如,一家农业企业使用Arduino解决方案来最大限度地提高作物产量,方案涉及传感器,这些传感器为边缘设备提供土壤湿度和风况等数据,以确定作物所需的水量。该技术可以帮助农民避免过度浇水,并降低电动水泵的运行成本。

再例如,一家依赖精密车床的制造商将传感器与Arduino设备结合使用,以检测异常情况,如微小的振动,这些振动预示着设备很可能出现问题。对于企业来说,定期维护比遇到导致生产停止的意外故障更具成本效益。

以上这些应用显示出边缘计算的价值和作用,从目前的应用发展情况来看,这样的应用需求越来越多,对智能化控制的需求也在增加,这就是边缘AI的价值所在。而像英伟达这样的企业,其GPU等高性能芯片主要关注的是云计算和数据中心市场的AI服务器,对边缘AI市场很少关注。基于此,Tenstorrent等AI芯片公司就有机会了。

02、更多AI芯片公司挑战英伟达

随着各路玩家竞相投入,AI芯片市场呈现百家争鸣之势。据统计,2019年全球AI芯片新创公司数量就已经超过80家,总融资额超过35亿美元。研究机构预估,到2025年,ASIC将在AI芯片市场中占据43%的比重,GPU占29%,FPGA占19%,CPU占9%。

一批AI芯片新创公司正在崛起,前文提到的Tenstorrent就是典型代表;Cerebras Systems则打造了有史以来最大的芯片WSE(Wafer Scale Engine),搭载了1.2兆个晶体管,让AI运算达到了前所未有的规模;明星公司Groq则由前Google工程师创立,专注于打造用于AI推理的低功耗处理器。

这里要介绍一下Tenstorrent的技术和产品,它特别看重低功耗,更适合边缘AI应用。据日经新闻报道,Tenstorrent有望在2024年底发布其第二代多用途AI处理器,但没有透露处理器的名称。根据该公司2023年秋天发布的路线图,打算发布其Black Hole独立AI处理器和Quasar低功耗、低成本芯片。

早些年,但担任Tenstorrent公司CTO的时候,Jim Keller就很看好低功耗的RISC-V架构,其团队基于此自研了Ascalon CPU。据悉,该公司的新一代Black Hole AI芯片是基于SiFive的X280 RISC-V核设计开发的。

Tenstorrent表示,即将推出的处理器之所以具有高效率和更低的成本,很重要的一个原因是避免使用高带宽内存(HBM),改用了GDDR6,这对于为AI推理设计的入门级AI处理器来说是很匹配的。也就是说,该公司的AI芯片架构对内存带宽的消耗低于竞争对手,因此成本较低。

虽然Tenstorrent尚未抢占AI处理器市场的重要份额,但该公司具有成本效益且可扩展的AI解决方案,可以满足英伟达无法触及的多种应用需求。不止Tenstorrent,多家新创AI芯片公司也将在未来几个季度推出类似应用的·AI芯片产品。总之,不与英伟达正面竞争,越来越多的AI市场新进入者更看重那些没有被“绿色团队”占据的市场。

AI芯片的创新一直在进行着,除了算力的提升,AI芯片在架构、功耗、整合度等方面还有很大的优化空间。例如,通过先进的封装技术,多个AI芯片可紧密整合,可大幅提升系统带宽和能效。AI专用的内存技术,如HBM、压缩内存等,也将得到更广泛的应用。

03、挑战英伟达生态系统

除了芯片技术创新,AI的生态系统建设也很重要。英伟达的CUDA平台经过多年发展,已经形成了庞大的开发者社区和丰富的软件资源,这是其竞争力的重要保证。

其他厂商也纷纷跟进,围绕自己的AI芯片建构生态系统,争取开发者的支持。Google推出了基于TPU的TensorFlow深度学习框架,并开源了相关代码;AMD收购了Xilinx;英特尔推出了OneAPI开发工具套件,试图统一CPU、GPU和AI加速器的程序开发接口。

Arm、英特尔、高通、三星等合作组建了统一加速基金会(UXL),目标之一就是取代英伟达的方案。

在AI系统当中,芯片互联技术很关键,特别是数据传输带宽,对系统性能的发挥起着重要作用。英伟达在这方面一直在建设自家生态,该公司最新的Blackwell GPU在多芯片互连、网络互连方面,将使用新推出的NVLink标准协议,在数据中心网络中,英伟达使用的是自家的InfiniBand总线。

对于英伟达这种封闭的生态系统,Jim Keller很看不惯,他是开放技术的忠实拥趸,对于那些封闭技术深恶痛绝。

Jim Keller提出,英伟达不应该使用私有的NVLink标准协议,应该换成开放的以太网标准,他还认为,在数据中心网络中,英伟达不该使用InfiniBand,也应换成以太网,因为Infiniband虽然具备低延迟、高带宽(最高可达200Gb/s)特性,但以太网能做到400Gb/s,甚至800Gb/s。

实际上,AMD、博通、英特尔、Meta、微软、甲骨文等巨头正在合作开发下一代超高速以太网(Utlra Ethernet),其吞吐量更高,更适合AI、HPC应用。

那么,新的以太网技术能否发展起来,并抗衡英伟达的互联技术呢?

2023年7月,多家行业巨头成立了超级以太网联盟(Ultra Accelerator Link,UALink),旨在与英伟达的InfiniBand抗衡。

AMD正在为UALink努力贡献更广泛的Infinity Fabric共享内存协议和GPU专用xGMI,所有其他参与者都同意使用Infinity Fabric作为加速器互连的标准协议。英特尔高级副总裁兼网络和边缘事业部总经理Sachin Katti表示,由AMD、Broadcom、Cisco Systems、Google、Hewlett Packard Enterprise、英特尔、Meta Platforms和Microsoft组成的Ultra Accelerator Link“推广小组”正在考虑使用以太网的第一层传输协议和Infinity Fabric作为将GPU内存链接到类似于CPU上的NUMA的巨大共享空间的一种方式。

UALink联盟成员相信,系统制造商将创建使用UALink的设备,并允许在客户构建他们的Pod时将来自许多参与者的加速器放入这些设备中。您可以有一个装有AMD GPU的pod,一个装有英特尔GPU的pod,另一个装有一些来自其他厂商的自定义加速器的pod。该设备可以实现服务器设计的通用性,就像Meta Platforms和Microsoft发布的开放加速器模块(OAM)规范一样,系统板上的加速器插槽具备通用性。

据IDC统计,在超大规模企业、云构建者、HPC中心和大型企业中,200Gb/s和400Gb/s网络的建设已经足够多,InfiniBand和以太网市场可以同时增长。

以太网无处不在——边缘侧和数据中心——这与 InfiniBand不同,后者专门用于数据中心。IDC表示,2023年第三季度,数据中心以太网交换机的销售额同比增长了7.2%。

在2022年第三季度到2023年第三季度期间,数据中心以太网交换机的市场规模约为200亿美元,如果交换占InfiniBand收入的一半,那么数据中心以太网交换规模仍比InfiniBand交换大7倍左右,并且,有越来越多的AI集群迁移到以太网,它们正在蚕食InfiniBand的市占率。

IDC表示,在以太网交换机市场的非数据中心部分,销售额增长更快,2023年第三季度增长了22.2%,前三个季度总共增长了36.5%,因为很多公司升级了园区网络。

2023年第三季度,数据中心、园区和边缘侧的以太网交换机市场规模达到117亿美元,同比增长了15.8%。配套以太网路由器市场下降了9.4%,这并不奇怪,因为路由器越来越多地使用包括交换和路由功能的商用芯片构建。

在数据中心,200Gb/s和400Gb/s以太网交换机的销售额同比增长了44%,端口出货量同比增长了63.9%。数据中心、边缘侧和园区的100Gb/s以太网交换机的销售额增长了6%。

04、结语

英伟达在云计算和数据中心AI系统方面的优势非常明显,无论是芯片行业巨头,还是新创公司,要想在这一赛道与英伟达PK,难度很大,特别是新创公司,前些年以英伟达GPU为竞品,走同一赛道的几家小公司,日子过得都不太好,有的甚至在破产边缘。只有AMD、英特尔这样的大厂可以在同一赛道与英伟达玩一玩。

云计算和数据中心AI赛道不好追,那就主攻低功耗、低成本的边缘侧应用市场,这也是一个很大的市场,且发展空间广阔,而目前市场上对口、适用的芯片又不多。在这种情况下,谁动手早,尽快拿出实用的产品,谁就能在未来竞争中占得先机。

除了AI芯片,互联技术和标准也是一个很有潜力的投资方向,而且在数据中心和边缘侧都有机会。英伟达的互联和总线技术不可能面面俱到,随着AI技术不断渗透到各行各业,以及各个性能、功耗和成本应用层级,芯片和系统互联的发展空间会越来越大,大大小小的公司都在摩拳擦掌。

本文为转载内容,授权事宜请联系原著作权人。

英伟达

7.1k
  • 盘中必读|英伟达与Nvent合作推出AI液冷方案,液冷概念再获关注,统一股份涨停
  • 挑战英伟达,奥特曼为半导体初创公司Rain AI筹资1.5亿美元

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

芯片大佬领衔,攻英伟达漏洞

随着各路玩家竞相投入,AI芯片市场呈现百家争鸣之势。

文|半导体产业纵横

​最近,芯片界传奇人物、处理器设计大佬、Tenstorrent现任首席执行官吉姆·凯勒(Jim Keller)在接受采访时表示,英伟达没有很好地服务于很多市场,因此,Tenstorrent和其它新创AI处理器研发公司是有机会的。

Jim Keller曾任职于多家大牌企业,包括AMD,英特尔、苹果和特斯拉。1998~1999年,Jim Keller在AMD主导了支撑速龙系列处理器的K7/K8架构开发工作,2008~2012年,在苹果牵头研发了A4、A5处理器,2012~2015年,在AMD主持K12 Arm项目和Zen架构项目,2016~2018年,在特斯拉研发FSD自动驾驶芯片,2018~2020年,在英特尔参与了神秘项目。

现在,Jim Keller在Tenstorrent领导AI处理器的开发,可以为英伟达昂贵的GPU提供价格合理的替代品,英伟达的GPU每个售价20,000 ~ 30,000美元或更多,Tenstorrent 称,其Galaxy系统的效率是英伟达DGX的3倍,成本低33%。做高性能AI应用处理器的产品替代是Tenstorrent工作的一部分,但不是全部,该公司的业务宗旨是服务英伟达未能解决的市场痛点,尤其是在边缘计算领域。

01、边缘计算AI地位提升

随着海量数据持续增加,以及对计算和存储系统实时性和安全性要求的提升,数据中心已经不能满足市场和客户的需求,市场要求相关软硬件系统提供商找到更快捷的方式来服务客户,以提高运营效率并降低成本。

在边缘运行AI工作负载的边缘到云解决方案有助于满足这一需求,将算力放在靠近数据创建点的网络边缘,对于要求近乎实时的应用至关重要,在本地设备上处理算法和数据等,而不是将这些工作负载传送到云或数据中心。

随着5G和物联网的发展,AI芯片在边缘运算领域的应用前景十分广阔,例如,自动驾驶汽车、智慧城市等场景,都需要在终端装置上进行实时的AI推理。为此,多家厂商纷纷推出了专用于边缘推理的AI芯片。

在制造业,本地运行的AI模型可以快速响应来自传感器和摄像头的数据,以执行重要任务。例如,汽车制造商使用计算机视觉扫描装配线,以在车辆离开工厂之前识别车辆的潜在缺陷。在这样的应用中,非常低的延迟和始终在线的要求使得在整个网络中来回传送数据变得不切实际。即使是少量的延迟也会影响产品质量。

另外,低功耗设备无法处理大的AI工作负载,例如训练计算机视觉系统所依赖的模型。从边缘到云的整体解决方案结合了两端的优势,后端云为复杂的AI工作负载提供可扩展性和处理能力,前端边缘设备将数据和分析紧密地结合在一起,以最大限度地减少延迟。

以Arduino低功耗边缘设备为例,许多这类设备的成本不到100美元,用户可以组合运行机器学习模型的几台或数千台设备。例如,一家农业企业使用Arduino解决方案来最大限度地提高作物产量,方案涉及传感器,这些传感器为边缘设备提供土壤湿度和风况等数据,以确定作物所需的水量。该技术可以帮助农民避免过度浇水,并降低电动水泵的运行成本。

再例如,一家依赖精密车床的制造商将传感器与Arduino设备结合使用,以检测异常情况,如微小的振动,这些振动预示着设备很可能出现问题。对于企业来说,定期维护比遇到导致生产停止的意外故障更具成本效益。

以上这些应用显示出边缘计算的价值和作用,从目前的应用发展情况来看,这样的应用需求越来越多,对智能化控制的需求也在增加,这就是边缘AI的价值所在。而像英伟达这样的企业,其GPU等高性能芯片主要关注的是云计算和数据中心市场的AI服务器,对边缘AI市场很少关注。基于此,Tenstorrent等AI芯片公司就有机会了。

02、更多AI芯片公司挑战英伟达

随着各路玩家竞相投入,AI芯片市场呈现百家争鸣之势。据统计,2019年全球AI芯片新创公司数量就已经超过80家,总融资额超过35亿美元。研究机构预估,到2025年,ASIC将在AI芯片市场中占据43%的比重,GPU占29%,FPGA占19%,CPU占9%。

一批AI芯片新创公司正在崛起,前文提到的Tenstorrent就是典型代表;Cerebras Systems则打造了有史以来最大的芯片WSE(Wafer Scale Engine),搭载了1.2兆个晶体管,让AI运算达到了前所未有的规模;明星公司Groq则由前Google工程师创立,专注于打造用于AI推理的低功耗处理器。

这里要介绍一下Tenstorrent的技术和产品,它特别看重低功耗,更适合边缘AI应用。据日经新闻报道,Tenstorrent有望在2024年底发布其第二代多用途AI处理器,但没有透露处理器的名称。根据该公司2023年秋天发布的路线图,打算发布其Black Hole独立AI处理器和Quasar低功耗、低成本芯片。

早些年,但担任Tenstorrent公司CTO的时候,Jim Keller就很看好低功耗的RISC-V架构,其团队基于此自研了Ascalon CPU。据悉,该公司的新一代Black Hole AI芯片是基于SiFive的X280 RISC-V核设计开发的。

Tenstorrent表示,即将推出的处理器之所以具有高效率和更低的成本,很重要的一个原因是避免使用高带宽内存(HBM),改用了GDDR6,这对于为AI推理设计的入门级AI处理器来说是很匹配的。也就是说,该公司的AI芯片架构对内存带宽的消耗低于竞争对手,因此成本较低。

虽然Tenstorrent尚未抢占AI处理器市场的重要份额,但该公司具有成本效益且可扩展的AI解决方案,可以满足英伟达无法触及的多种应用需求。不止Tenstorrent,多家新创AI芯片公司也将在未来几个季度推出类似应用的·AI芯片产品。总之,不与英伟达正面竞争,越来越多的AI市场新进入者更看重那些没有被“绿色团队”占据的市场。

AI芯片的创新一直在进行着,除了算力的提升,AI芯片在架构、功耗、整合度等方面还有很大的优化空间。例如,通过先进的封装技术,多个AI芯片可紧密整合,可大幅提升系统带宽和能效。AI专用的内存技术,如HBM、压缩内存等,也将得到更广泛的应用。

03、挑战英伟达生态系统

除了芯片技术创新,AI的生态系统建设也很重要。英伟达的CUDA平台经过多年发展,已经形成了庞大的开发者社区和丰富的软件资源,这是其竞争力的重要保证。

其他厂商也纷纷跟进,围绕自己的AI芯片建构生态系统,争取开发者的支持。Google推出了基于TPU的TensorFlow深度学习框架,并开源了相关代码;AMD收购了Xilinx;英特尔推出了OneAPI开发工具套件,试图统一CPU、GPU和AI加速器的程序开发接口。

Arm、英特尔、高通、三星等合作组建了统一加速基金会(UXL),目标之一就是取代英伟达的方案。

在AI系统当中,芯片互联技术很关键,特别是数据传输带宽,对系统性能的发挥起着重要作用。英伟达在这方面一直在建设自家生态,该公司最新的Blackwell GPU在多芯片互连、网络互连方面,将使用新推出的NVLink标准协议,在数据中心网络中,英伟达使用的是自家的InfiniBand总线。

对于英伟达这种封闭的生态系统,Jim Keller很看不惯,他是开放技术的忠实拥趸,对于那些封闭技术深恶痛绝。

Jim Keller提出,英伟达不应该使用私有的NVLink标准协议,应该换成开放的以太网标准,他还认为,在数据中心网络中,英伟达不该使用InfiniBand,也应换成以太网,因为Infiniband虽然具备低延迟、高带宽(最高可达200Gb/s)特性,但以太网能做到400Gb/s,甚至800Gb/s。

实际上,AMD、博通、英特尔、Meta、微软、甲骨文等巨头正在合作开发下一代超高速以太网(Utlra Ethernet),其吞吐量更高,更适合AI、HPC应用。

那么,新的以太网技术能否发展起来,并抗衡英伟达的互联技术呢?

2023年7月,多家行业巨头成立了超级以太网联盟(Ultra Accelerator Link,UALink),旨在与英伟达的InfiniBand抗衡。

AMD正在为UALink努力贡献更广泛的Infinity Fabric共享内存协议和GPU专用xGMI,所有其他参与者都同意使用Infinity Fabric作为加速器互连的标准协议。英特尔高级副总裁兼网络和边缘事业部总经理Sachin Katti表示,由AMD、Broadcom、Cisco Systems、Google、Hewlett Packard Enterprise、英特尔、Meta Platforms和Microsoft组成的Ultra Accelerator Link“推广小组”正在考虑使用以太网的第一层传输协议和Infinity Fabric作为将GPU内存链接到类似于CPU上的NUMA的巨大共享空间的一种方式。

UALink联盟成员相信,系统制造商将创建使用UALink的设备,并允许在客户构建他们的Pod时将来自许多参与者的加速器放入这些设备中。您可以有一个装有AMD GPU的pod,一个装有英特尔GPU的pod,另一个装有一些来自其他厂商的自定义加速器的pod。该设备可以实现服务器设计的通用性,就像Meta Platforms和Microsoft发布的开放加速器模块(OAM)规范一样,系统板上的加速器插槽具备通用性。

据IDC统计,在超大规模企业、云构建者、HPC中心和大型企业中,200Gb/s和400Gb/s网络的建设已经足够多,InfiniBand和以太网市场可以同时增长。

以太网无处不在——边缘侧和数据中心——这与 InfiniBand不同,后者专门用于数据中心。IDC表示,2023年第三季度,数据中心以太网交换机的销售额同比增长了7.2%。

在2022年第三季度到2023年第三季度期间,数据中心以太网交换机的市场规模约为200亿美元,如果交换占InfiniBand收入的一半,那么数据中心以太网交换规模仍比InfiniBand交换大7倍左右,并且,有越来越多的AI集群迁移到以太网,它们正在蚕食InfiniBand的市占率。

IDC表示,在以太网交换机市场的非数据中心部分,销售额增长更快,2023年第三季度增长了22.2%,前三个季度总共增长了36.5%,因为很多公司升级了园区网络。

2023年第三季度,数据中心、园区和边缘侧的以太网交换机市场规模达到117亿美元,同比增长了15.8%。配套以太网路由器市场下降了9.4%,这并不奇怪,因为路由器越来越多地使用包括交换和路由功能的商用芯片构建。

在数据中心,200Gb/s和400Gb/s以太网交换机的销售额同比增长了44%,端口出货量同比增长了63.9%。数据中心、边缘侧和园区的100Gb/s以太网交换机的销售额增长了6%。

04、结语

英伟达在云计算和数据中心AI系统方面的优势非常明显,无论是芯片行业巨头,还是新创公司,要想在这一赛道与英伟达PK,难度很大,特别是新创公司,前些年以英伟达GPU为竞品,走同一赛道的几家小公司,日子过得都不太好,有的甚至在破产边缘。只有AMD、英特尔这样的大厂可以在同一赛道与英伟达玩一玩。

云计算和数据中心AI赛道不好追,那就主攻低功耗、低成本的边缘侧应用市场,这也是一个很大的市场,且发展空间广阔,而目前市场上对口、适用的芯片又不多。在这种情况下,谁动手早,尽快拿出实用的产品,谁就能在未来竞争中占得先机。

除了AI芯片,互联技术和标准也是一个很有潜力的投资方向,而且在数据中心和边缘侧都有机会。英伟达的互联和总线技术不可能面面俱到,随着AI技术不断渗透到各行各业,以及各个性能、功耗和成本应用层级,芯片和系统互联的发展空间会越来越大,大大小小的公司都在摩拳擦掌。

本文为转载内容,授权事宜请联系原著作权人。