meta与nvidia联合打造大型ai研究超级计算机-凯发官网首页

这是meta第二次选择nvidia技术作为其研究平台的基础。

meta platforms充分认可nvidia，为其有望成为有史以来最强大的研究系统选择了nvidia的先进技术。

于今日发布的ai研究超级集群（rsc）已在训练新模型以推动ai发展。

全面部署后，meta的rsc预计将成为最大的nvidia dgx a100客户系统。

meta在一篇博客文章中表示：“我们希望rsc帮助我们建立全新的ai系统，例如可以为多个不同语言的团队提供实时语音翻译，使他们可以在研究项目上无缝协作，甚至一起玩ar游戏。”

训练最大的ai模型

当rsc在今年晚些时候完全建成时，meta将用它来训练具有超过1万亿个参数的ai模型。这将推动自然语言处理等领域的发展，比如实时识别不法内容等工作。

除了实现规模性能之外，meta还将超高的可靠性、安全性、隐私性以及处理“各类ai模型”的灵活性作为rsc的关键指标。

meta的ai研究超级集群拥有数百个nvidia dgx系统并通过nvidia quantum infiniband网络相连接，助力meta ai研究团队提高工作速率。

性能大揭秘

目前，此全新ai超级计算机已经部署了760个nvidia dgx a100系统作为其计算节点。共有6080个nvidia a100 gpu，通过nvidia quantum 200gb/s infiniband网络连接，可提供1895千万亿次tf32计算性能。

尽管受到新冠疫情的影响，这样一台可运行的ai超级计算机从想法到实现，rsc仅用了18个月！ “功臣”之一便是采用nvidia dgx a100技术作为基石。

penguin computing是nvidia凯发k8官网下载的合作伙伴网络中负责rsc交付的凯发k8官网下载的合作伙伴。除了760个dgx a100系统和infiniband网络之外，penguin还为meta提供管理服务和ai基础架构优化，包括一个46pb高速缓存的altus系统。

性能提升20倍

这是meta第二次选择nvidia技术作为其研究平台的基础。2017年，meta打造了第一代ai研究基础架构，配备了22000个nvidia v100 tensor core gpu，每日可处理35000项ai训练工作。

meta的早期基准测试显示，rsc训练大型nlp模型的速度比之前的系统快3倍，运行计算机视觉工作的速度比之前的系统快20倍。

在今年晚些时候的第二阶段，rsc将扩展至16000个gpu。meta认为届时rsc将提供高达5百亿亿次级混合精度ai计算性能，并且meta希望通过扩展rsc的存储系统，以每秒16tb的速度提供高达1eb的数据。

可扩展架构

nvidia ai技术适用于任何规模的企业应用。

nvidia dgx包含一个完整的nvidia ai软件栈，可以轻松地从单个系统扩展至完整的dgx superpod，可以在本地或主机托管商处运行。客户亦可以通过nvidia dgx foundry租用dgx系统。

责任编辑：

关键词阅读

联想工程师讲述冬奥“0故障”背后的故事

文章推荐

博客推荐

视频推荐

: 2021/12/24

: 2021/12/14

: 2021/12/14