hpe与英伟达携手为ai训练打造“交钥匙”超算方案-凯发官网首页

hpe与英伟达表示正为客户提供构建模块，可用于组装同布里斯托大学isambard-ai超级计算机同架构的迷你版本，用以训练生成式ai和深度学习项目。

　　两家公司正联手销售一款基于hpe cray ex2500架构及英伟达grace hopper超级芯片的模块化机器，其上运行的则是两家公司共同提供的软件工具栈。

　　该系统将于本周在科罗拉多州召开的sc23高性能计算（hpc）大会上公开演示，设计目标是通过预配置和预测试的完整技术栈，让组织更轻松地启动并运行ai训练。当然，一切要等价格公布之后才有定论。

　　根据hpe的介绍，该系统是首款采用四gh200超级芯片节点配置的系统，就是说每个节点将包含4块英伟达高端芯片。每块超级芯片都拥有72核arm架构grace cpu与hopper gpu，并配备480 gb的lpddr5x内存与144 gb hbm3e高带宽内存。

　　这些节点采用hpe的slingshot互连技术，这项技术属于以太网的超集，添加了高性能计算（hpc）所必需的诸多功能。

　　虽然硬件成本相当可观，但hpe表示这套特殊的凯发k8官网下载的解决方案允许客户先从小规模起步，随后根据需求灵活扩展。

　　hpe高性能计算、人工智能与实验室执行副总裁juston hotard在采访中表示，“已经有一部分客户发布了搭载grace hopper超级芯片的产品，但我们的ex2500仍然独一无二，因为它可作为统一的单位进行部署，全部冷却、供电和计算板件均部署在同一模块之内。”

　　他解释道，这意味着该系统“不仅为客户提供了非常简单的入门选项，同时还具备广阔的扩展空间。”

　　作为方案中的软件技术栈，hpe带来了自己的机器学习开发环境（machine learning development environment）。这是一套用于训练生成式ai模型的平台，主要基于hpe在2021年收购自defined ai的技术。

　　方案中还包含英伟达的ai enterprise套件，这是一系列ai工具和框架的集合，包括tensorflow、pytorch、英伟达rapids与tensorrt软件库，以及triton推理服务器等。客户还可以获得hpe的cray编程环境，这是一套用于代码开发、移植和调试的工具组合。

　　hotard表示，ai训练是目前计算密度最大的工作负载之一，因此对计算架构的要求也比较特殊。

　　“我们都知道，云架构是围绕单一服务器资源的最大化利用设计而成的。因此在面对工作负载时，这类方案倾向于将任务拆分成一个个较小的部分。”

　　“但ai工作负载，特别是训练和大规模微调类负载，则有着截然不同的特性。在某些情况下，这些工作负载需要将整座数据中心视为单一计算机来运行。ai工作负载需要运行在几百甚至数千个节点之上，并要求所有计算、互连和存储资源都要像在超级计算机内那样高度一致地规模化运行。”

　　当然，这套新系统的服务对象仅限那些掌握充足财务预算的组织，不过hpe目前拒绝透露关于成本的具体信息。hotard表示价格将在不久之后对外公布。

　　英伟达科学项目经理jack wells宣称，基准测试结果显示，在使用llama 2处理大语言模型（llm）推理工作负载时，基于gh200的单一节点比双至强cpu服务器快100倍。

　　他声称，“生成式ai正在重构科学计算思路，并带动起极为巨大的市场需求。”他同时强调，hpe与英伟达的这款产品已经吸引到多家客户。

　　其中包括苏黎世联邦理工学院的超级计算机、波兰cyfronet、洛斯阿拉莫斯国家实验室，以及布里斯托大学的isambard-ai系统（计划部署5448块英伟达gh200超级芯片）。

　　hpe表示，该服务将从12月登陆30多个国家的市场。除了来自公共部门和研究机构的ai创新中心客户之外，该项目预计还将吸引到不少企业巨头的关注。

责任编辑：

关键词阅读

相关资料