正在阅读:

特斯拉公布Dojo超算路线图,披露全家福,首个ExaPOD明年见

扫一扫下载界面新闻APP

特斯拉公布Dojo超算路线图,披露全家福,首个ExaPOD明年见

特斯拉超级计算机的愿景,是构建一个统一的加速器。

文|芯东西 ZeR0

编辑|漠影

芯东西10月1日消息,今日上午,在第二届特斯拉AI Day上,特斯拉分享了其自研Dojo超级计算机系统的更多技术进展,并公布未来路线图。

据介绍,特斯拉首款人形机器人“擎天柱”的大脑就将采用Dojo超级计算机系统。

在去年的首届特斯拉AI Day上,特斯拉展示了其首款AI训练芯片Dojo D1,以及基于该芯片构建的完整Dojo集群ExaPOD,用于执行AI训练任务,为其上路车辆庞大的视频处理需求提供支撑。

当前特斯拉已经拥有基于英伟达GPU的大型超算,以及一个存储30PB视频素材的数据中心。

特斯拉技术专家称,特斯拉的车队在日常行驶中积累了很多视频片段,每个视频有多帧图像,需要14亿帧才能训练一个神经网络,需要使用10万个GPU工时。而特斯拉自研的Dojo超算,能够提升30%的网络训练速度。

Dojo首席系统工程师Bill Chang说,特斯拉超级计算机的愿景是构建一个统一的加速器。

会上,Dojo团队展示了通过Dojo实现Stable Diffusion在火星上运行Cybertruck的图像。

据介绍,只用4个Dojo机柜就能取代由4000个GPU组成的72个GPU机架。Dojo能将通常需要几个月的工作减少到了1周。

自去年特斯拉AI Day至今,Dojo开发迎来了一系列里程碑,包括安装第一个Dojo机柜、进行2.2mW负载测试等,现在特斯拉正以每天打造一个Tile的速度推进工作。

特斯拉还宣布其第一个ExaPOD预计将在2023年第一季度完工,计划在帕洛阿尔托总建造7台ExaPOD。

01 快速试错,看重热膨胀系数

特斯拉一直试图优化Dojo设计的可扩展性,并以“快速试错”的心态来克服挑战。

Dojo加速器具有单个可扩展计算平面、全局寻址快速存储器和统一的高带宽+低延迟。

Bill Chang特别谈到电压调节模块,它具有高性能、高密度(0.86A/mm2)、复杂集成性。

其电压调节模块在24个月内更新了14个版本。

热膨胀系数(CTE)很重要,因此特斯拉与供应商合作提供电力解决方案。其CTE降低了50%以上,Dojo的性能是初始扩展的3倍。

在Bill Chang看来,解决每个级别的密度是实现系统性能的关键,所有系统组件必须集成到电源模块中。其集成解决方案包括用软终端电容器来减少振动等。

特斯拉还展示了一组过去两年间从交付定制冷液分配单元(CDU)到安装第一台集成Dojo机柜、再到2.2MW机组负载测试的照片。

02 秀Dojo系统全家福,首个ExaPOD明年完工

下图是Dojo超级计算机系统,包括D1芯片、训练Tile和ExaPOD集群。

D1采用台积电7nm制程工艺,在645mm2的面积上塞了500亿颗晶体管,BF16、CFP8算力可达362TFLOPS,FP32算力可达22.6TFLOPS,TDP(热设计功耗)为400W。

相比之下,同样采用台积电7nm制程工艺、TDP达400W的英伟达旗舰计算卡A100 GPU,面积为826mm2,晶体管数量达542亿颗,FP32峰值算力为19.5TFLOPS。

基于D1芯片,特斯拉推出晶圆上系统级方案,通过应用台积电InFO_SoW封装技术,将所有25颗D1裸片都集成到一个训练Tile上,每个Dojo训练Tile消耗15kW。特斯拉Dojo训练Tile中有计算、I/O、功率和液冷模块。

Dojo System Tray有高速连接、密集集成等特性,75mm高度能支持135kg。其BF16/CFP8峰值算力可达到54TFLOPS,功耗100+kW。

Dojo接口处理器是一个具有高带宽内存的PCIe卡,利用特斯拉自家TTP接口。

特斯拉传输协议TTP还可以桥接到标准以太网,TTPOE可将标准以太网转换至Z平面拓扑,拥有高Z平面拓扑连接性。

Dojo主机接口的介绍如下:

据介绍,在10机柜系统中,Dojo ExaPOD集群将突破E级算力。

其BF16/CFP8峰值算力达到1.1EFLOPS(百亿亿次浮点运算),并拥有1.3TB高速SRAM和13TB高带宽DRAM。

03 对打英伟达A100,显著降本增效

接下来是Dojo ExaPOD的软件栈。

其软件性能由硬件性能、利用率和加速器占用率的综合加成决定。其中利用率涉及编译器,加速器占用率涉及Ingest Pipeline功能。

在软件方面,整个系统可以被视为一个整体。

借助Dojo编译器,用户可将Dojo大型分布式系统视作一个加速器。

现场,特斯拉首席工程师Rajiv Kurian分享了在Dojo上运行Stable Diffusion,根据“火星上Cybertruck”的提示创建由AI生成的图像。他打趣道,看起来它在匹配特斯拉设计团队之前还有很长的路要走。

Dojo编译器的归一化Batch Norm结果如下,相比GPU有数量级的延迟优势。

同样跑经典图像分类模型ResNet-50,Dojo可以实现比英伟达A100更高的帧率。

跑自动标注算法、预测汽车周围所有物体空间占用率的神经网络模型Occupancy Networks时,相比英伟达A100,Dojo能实现性能的倍增。

结果,以前要用6个GPU Box的计算开销,现在不到1个GPU Box就能搞定。

72个GPU机架才能跑完的自动标注算法,现在只要4台Dojo Cabinet机柜就能做到。

 

04 结语:特斯拉不止是一家汽车制造商

此前在为特斯拉AI Day预热时,马斯克已经发推文预告说此次活动的目的是为了招募人工智能和机器人领域的工程师,因此内容会非常硬核。

结果也如其所述,本届AI Day俨然是特斯拉前沿技术能力的集中展示,从人形机器人的核心技术,到全自动驾驶(FSD)的各种先进算法,再到Dojo超算的软硬件系统,干货相当丰富。

从这些在人工智能、自动驾驶、机器人及计算硬件相关的技术布局,可以看到特斯拉在押注高精尖技术上的布局之深之广,这也将是特斯拉吸引更多高端工程人才的绝佳金字招牌。

本文为转载内容,授权事宜请联系原著作权人。

特斯拉

9.8k
  • 《银翼杀手2049》制片方起诉特斯拉与马斯克,称Cybercab营销图侵权
  • 智能驾驶未来已来?——从特斯拉发布会看智驾产业

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

特斯拉公布Dojo超算路线图,披露全家福,首个ExaPOD明年见

特斯拉超级计算机的愿景,是构建一个统一的加速器。

文|芯东西 ZeR0

编辑|漠影

芯东西10月1日消息,今日上午,在第二届特斯拉AI Day上,特斯拉分享了其自研Dojo超级计算机系统的更多技术进展,并公布未来路线图。

据介绍,特斯拉首款人形机器人“擎天柱”的大脑就将采用Dojo超级计算机系统。

在去年的首届特斯拉AI Day上,特斯拉展示了其首款AI训练芯片Dojo D1,以及基于该芯片构建的完整Dojo集群ExaPOD,用于执行AI训练任务,为其上路车辆庞大的视频处理需求提供支撑。

当前特斯拉已经拥有基于英伟达GPU的大型超算,以及一个存储30PB视频素材的数据中心。

特斯拉技术专家称,特斯拉的车队在日常行驶中积累了很多视频片段,每个视频有多帧图像,需要14亿帧才能训练一个神经网络,需要使用10万个GPU工时。而特斯拉自研的Dojo超算,能够提升30%的网络训练速度。

Dojo首席系统工程师Bill Chang说,特斯拉超级计算机的愿景是构建一个统一的加速器。

会上,Dojo团队展示了通过Dojo实现Stable Diffusion在火星上运行Cybertruck的图像。

据介绍,只用4个Dojo机柜就能取代由4000个GPU组成的72个GPU机架。Dojo能将通常需要几个月的工作减少到了1周。

自去年特斯拉AI Day至今,Dojo开发迎来了一系列里程碑,包括安装第一个Dojo机柜、进行2.2mW负载测试等,现在特斯拉正以每天打造一个Tile的速度推进工作。

特斯拉还宣布其第一个ExaPOD预计将在2023年第一季度完工,计划在帕洛阿尔托总建造7台ExaPOD。

01 快速试错,看重热膨胀系数

特斯拉一直试图优化Dojo设计的可扩展性,并以“快速试错”的心态来克服挑战。

Dojo加速器具有单个可扩展计算平面、全局寻址快速存储器和统一的高带宽+低延迟。

Bill Chang特别谈到电压调节模块,它具有高性能、高密度(0.86A/mm2)、复杂集成性。

其电压调节模块在24个月内更新了14个版本。

热膨胀系数(CTE)很重要,因此特斯拉与供应商合作提供电力解决方案。其CTE降低了50%以上,Dojo的性能是初始扩展的3倍。

在Bill Chang看来,解决每个级别的密度是实现系统性能的关键,所有系统组件必须集成到电源模块中。其集成解决方案包括用软终端电容器来减少振动等。

特斯拉还展示了一组过去两年间从交付定制冷液分配单元(CDU)到安装第一台集成Dojo机柜、再到2.2MW机组负载测试的照片。

02 秀Dojo系统全家福,首个ExaPOD明年完工

下图是Dojo超级计算机系统,包括D1芯片、训练Tile和ExaPOD集群。

D1采用台积电7nm制程工艺,在645mm2的面积上塞了500亿颗晶体管,BF16、CFP8算力可达362TFLOPS,FP32算力可达22.6TFLOPS,TDP(热设计功耗)为400W。

相比之下,同样采用台积电7nm制程工艺、TDP达400W的英伟达旗舰计算卡A100 GPU,面积为826mm2,晶体管数量达542亿颗,FP32峰值算力为19.5TFLOPS。

基于D1芯片,特斯拉推出晶圆上系统级方案,通过应用台积电InFO_SoW封装技术,将所有25颗D1裸片都集成到一个训练Tile上,每个Dojo训练Tile消耗15kW。特斯拉Dojo训练Tile中有计算、I/O、功率和液冷模块。

Dojo System Tray有高速连接、密集集成等特性,75mm高度能支持135kg。其BF16/CFP8峰值算力可达到54TFLOPS,功耗100+kW。

Dojo接口处理器是一个具有高带宽内存的PCIe卡,利用特斯拉自家TTP接口。

特斯拉传输协议TTP还可以桥接到标准以太网,TTPOE可将标准以太网转换至Z平面拓扑,拥有高Z平面拓扑连接性。

Dojo主机接口的介绍如下:

据介绍,在10机柜系统中,Dojo ExaPOD集群将突破E级算力。

其BF16/CFP8峰值算力达到1.1EFLOPS(百亿亿次浮点运算),并拥有1.3TB高速SRAM和13TB高带宽DRAM。

03 对打英伟达A100,显著降本增效

接下来是Dojo ExaPOD的软件栈。

其软件性能由硬件性能、利用率和加速器占用率的综合加成决定。其中利用率涉及编译器,加速器占用率涉及Ingest Pipeline功能。

在软件方面,整个系统可以被视为一个整体。

借助Dojo编译器,用户可将Dojo大型分布式系统视作一个加速器。

现场,特斯拉首席工程师Rajiv Kurian分享了在Dojo上运行Stable Diffusion,根据“火星上Cybertruck”的提示创建由AI生成的图像。他打趣道,看起来它在匹配特斯拉设计团队之前还有很长的路要走。

Dojo编译器的归一化Batch Norm结果如下,相比GPU有数量级的延迟优势。

同样跑经典图像分类模型ResNet-50,Dojo可以实现比英伟达A100更高的帧率。

跑自动标注算法、预测汽车周围所有物体空间占用率的神经网络模型Occupancy Networks时,相比英伟达A100,Dojo能实现性能的倍增。

结果,以前要用6个GPU Box的计算开销,现在不到1个GPU Box就能搞定。

72个GPU机架才能跑完的自动标注算法,现在只要4台Dojo Cabinet机柜就能做到。

 

04 结语:特斯拉不止是一家汽车制造商

此前在为特斯拉AI Day预热时,马斯克已经发推文预告说此次活动的目的是为了招募人工智能和机器人领域的工程师,因此内容会非常硬核。

结果也如其所述,本届AI Day俨然是特斯拉前沿技术能力的集中展示,从人形机器人的核心技术,到全自动驾驶(FSD)的各种先进算法,再到Dojo超算的软硬件系统,干货相当丰富。

从这些在人工智能、自动驾驶、机器人及计算硬件相关的技术布局,可以看到特斯拉在押注高精尖技术上的布局之深之广,这也将是特斯拉吸引更多高端工程人才的绝佳金字招牌。

本文为转载内容,授权事宜请联系原著作权人。