正在阅读:

以算力池化提升GPU利用率,这家公司要用软件定义算力|REAL 100

扫一扫下载界面新闻APP

以算力池化提升GPU利用率,这家公司要用软件定义算力|REAL 100

AI领域内不断增长的算力需求与现有GPU的低利用率之间的矛盾一直存在。

图片来源:图虫

记者|于浩

把自己想象成80岁的模样,并回望自己的一生,尽力把遗憾事件的数量降到最低。这是贝索斯所提出的遗憾最小化框架。在考虑是否创立亚马逊时,贝索斯也曾因创业的不确定性而犹豫。正是遗憾最小化框架使得他最终迈出了这一步。

在2018年底,王鲲也凭借着这一框架做出了创业的决定。经历过CPU虚拟化的技术浪潮后,时任Dell EMC中国研究院院长的王鲲意识到,当前数据中心里,与计算、存储、网络三个主要支柱相关的硬件资源都需要被很好地软件定义。

当时在软件定义CPU的赛道上,已经出现了如VMware的巨头公司,但同为算力来源的GPU方面,却并未出现足够优秀的虚拟化解决方案。截止2021年12月29日收盘,VMware的市值为493.02亿美元,2021财年总收入为117.67亿美元。另一方面,随着AI、区块链等技术的发展与应用,GPU的应用场景正在加速扩展,对于虚拟化解决方案的需求也愈发强烈。

王鲲所看到的正是这样一个机会。在2018年底,他下定决心从Dell EMC中国研究院离职,创立了趋动科技。12月27日,趋动科技宣布已完成数亿元人民币B+轮融资,由普罗资本旗下国开装备基金领投,老股东Prosperity7 Ventures、元禾重元、高瓴创投跟投。

据王鲲介绍,趋动科技的产品线包含OrionX猎户座AI算力资源池化软件与双子座GEMINI AI训练平台。其中,OrionX猎户座AI算力资源池化软件目标在于帮助用户提高资源利用率和降低TCO。双子座GEMINI AI训练平台则是针对传统行业的客户,在OrionX的基础上为其提供AI算力管理、算法开发、训练支持等整套服务,并搭配图形化界面以降低使用门槛。

回归算力本身,AI领域内不断增长的算力需求与现有GPU的低利用率之间的矛盾一直存在。

一方面,GPU芯片公司英伟达公布其2022财年第3季度收入达71亿美元,最近4个季度同比增长50%;但在另一方面,AWS在AWS re:Invent 2018大会曾提及,在AWS上GPU利用率只有10%至30%。

“用户如果直接访问硬件,那么硬件管理会变得非常复杂,效率也会很低。”王鲲将芯片比喻为大巴车,而要运用算力执行的任务被比喻为旅行团。“如果团里只有三五个人还要派一辆大巴车,那么必然存在资源的浪费。”而被软件定义之后,GPU算力资源被虚拟化,用户由管理“大巴车”变为了管理“座位”,可以依据任务需要调配适当的算力。

在完成了虚拟化之后,趋动科技也支持将GPU资源池化,其中远程调用算力的能力至关重要。通过这一能力,用户即便在未搭载GPU的服务器上,也能够远程调用外部被虚拟化的算力运行计算任务。也得益于这一能力,原先以物理节点形式分散分布的算力得以汇总成一个算力资源池,提升用户的管理效率的同时可降低其使用成本。

实现远程调用算力的同时确保计算效率并不容易。据王鲲介绍,因为计算量过大,运行一个程序一秒钟需要调用GPU的次数将超过100万次,数据循环往复的过程会极大影响性能,因此远程调用算力时需要在网络、GPU、底层操作系统等多方面进行优化。

这也是趋动科技的技术壁垒之一。“按100分的基准来看,如果不做优化,可能只能得一分或两分,但我们做完优化后,趋动的方案可以得到98分甚至更高,几乎和直接使用硬件没什么区别。”王鲲在采访中强调。

2019年7月,VMware收购了AI初创公司Bitfusion,弥补了其在GPU虚拟化技术方面的不足。与VMware的相关技术相比,王鲲指出,趋动科技的GPU虚拟化方案在资源池化方面做的更加完善,此外趋动还适配国产芯片。

在商业模式方面,针对使用上述产品服务的客户,趋动科技会根据GPU的型号和数量按年收费。目前,趋动科技的客户分布于银行、证券、保险、高校、电商、自动驾驶等多个领域,其中包含中信建投证券、中国移动咪咕、北京理工大学、携程等。

尽管目前尚未盈利,但王鲲认为,相较于快速盈利,行稳致远才更加重要。“底层软件的赛道一定是非常长期的,一些其他赛道的公司可能会很快的收支平衡,但是像趋动这样的公司追求很快的收支平衡可能透支了未来的潜力”。也因此,新客户数的增长以及老客户的增购情况成为王鲲更为看重的指标。

面向未来,趋动科技将主要向“芯片”与“应用”两个方向扩展。目前OrionX主要支持的是英伟达和寒武纪的芯片,而未来王鲲希望支持更多国产和国外芯片。另一个扩展方向为丰富应用场景。除AI之外,王鲲表示之后趋动科技也会向生命科学、元宇宙等应用场景进行拓展。

未经正式授权严禁转载本文,侵权必究。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

以算力池化提升GPU利用率,这家公司要用软件定义算力|REAL 100

AI领域内不断增长的算力需求与现有GPU的低利用率之间的矛盾一直存在。

图片来源:图虫

记者|于浩

把自己想象成80岁的模样,并回望自己的一生,尽力把遗憾事件的数量降到最低。这是贝索斯所提出的遗憾最小化框架。在考虑是否创立亚马逊时,贝索斯也曾因创业的不确定性而犹豫。正是遗憾最小化框架使得他最终迈出了这一步。

在2018年底,王鲲也凭借着这一框架做出了创业的决定。经历过CPU虚拟化的技术浪潮后,时任Dell EMC中国研究院院长的王鲲意识到,当前数据中心里,与计算、存储、网络三个主要支柱相关的硬件资源都需要被很好地软件定义。

当时在软件定义CPU的赛道上,已经出现了如VMware的巨头公司,但同为算力来源的GPU方面,却并未出现足够优秀的虚拟化解决方案。截止2021年12月29日收盘,VMware的市值为493.02亿美元,2021财年总收入为117.67亿美元。另一方面,随着AI、区块链等技术的发展与应用,GPU的应用场景正在加速扩展,对于虚拟化解决方案的需求也愈发强烈。

王鲲所看到的正是这样一个机会。在2018年底,他下定决心从Dell EMC中国研究院离职,创立了趋动科技。12月27日,趋动科技宣布已完成数亿元人民币B+轮融资,由普罗资本旗下国开装备基金领投,老股东Prosperity7 Ventures、元禾重元、高瓴创投跟投。

据王鲲介绍,趋动科技的产品线包含OrionX猎户座AI算力资源池化软件与双子座GEMINI AI训练平台。其中,OrionX猎户座AI算力资源池化软件目标在于帮助用户提高资源利用率和降低TCO。双子座GEMINI AI训练平台则是针对传统行业的客户,在OrionX的基础上为其提供AI算力管理、算法开发、训练支持等整套服务,并搭配图形化界面以降低使用门槛。

回归算力本身,AI领域内不断增长的算力需求与现有GPU的低利用率之间的矛盾一直存在。

一方面,GPU芯片公司英伟达公布其2022财年第3季度收入达71亿美元,最近4个季度同比增长50%;但在另一方面,AWS在AWS re:Invent 2018大会曾提及,在AWS上GPU利用率只有10%至30%。

“用户如果直接访问硬件,那么硬件管理会变得非常复杂,效率也会很低。”王鲲将芯片比喻为大巴车,而要运用算力执行的任务被比喻为旅行团。“如果团里只有三五个人还要派一辆大巴车,那么必然存在资源的浪费。”而被软件定义之后,GPU算力资源被虚拟化,用户由管理“大巴车”变为了管理“座位”,可以依据任务需要调配适当的算力。

在完成了虚拟化之后,趋动科技也支持将GPU资源池化,其中远程调用算力的能力至关重要。通过这一能力,用户即便在未搭载GPU的服务器上,也能够远程调用外部被虚拟化的算力运行计算任务。也得益于这一能力,原先以物理节点形式分散分布的算力得以汇总成一个算力资源池,提升用户的管理效率的同时可降低其使用成本。

实现远程调用算力的同时确保计算效率并不容易。据王鲲介绍,因为计算量过大,运行一个程序一秒钟需要调用GPU的次数将超过100万次,数据循环往复的过程会极大影响性能,因此远程调用算力时需要在网络、GPU、底层操作系统等多方面进行优化。

这也是趋动科技的技术壁垒之一。“按100分的基准来看,如果不做优化,可能只能得一分或两分,但我们做完优化后,趋动的方案可以得到98分甚至更高,几乎和直接使用硬件没什么区别。”王鲲在采访中强调。

2019年7月,VMware收购了AI初创公司Bitfusion,弥补了其在GPU虚拟化技术方面的不足。与VMware的相关技术相比,王鲲指出,趋动科技的GPU虚拟化方案在资源池化方面做的更加完善,此外趋动还适配国产芯片。

在商业模式方面,针对使用上述产品服务的客户,趋动科技会根据GPU的型号和数量按年收费。目前,趋动科技的客户分布于银行、证券、保险、高校、电商、自动驾驶等多个领域,其中包含中信建投证券、中国移动咪咕、北京理工大学、携程等。

尽管目前尚未盈利,但王鲲认为,相较于快速盈利,行稳致远才更加重要。“底层软件的赛道一定是非常长期的,一些其他赛道的公司可能会很快的收支平衡,但是像趋动这样的公司追求很快的收支平衡可能透支了未来的潜力”。也因此,新客户数的增长以及老客户的增购情况成为王鲲更为看重的指标。

面向未来,趋动科技将主要向“芯片”与“应用”两个方向扩展。目前OrionX主要支持的是英伟达和寒武纪的芯片,而未来王鲲希望支持更多国产和国外芯片。另一个扩展方向为丰富应用场景。除AI之外,王鲲表示之后趋动科技也会向生命科学、元宇宙等应用场景进行拓展。

未经正式授权严禁转载本文,侵权必究。