这是meta第二次选择nvidia技术作为其研究平台的基础。
meta platforms充分认可nvidia,为其有望成为有史以来最强大的研究系统选择了nvidia的先进技术。
于今日发布的ai研究超级集群(rsc)已在训练新模型以推动ai发展。
全面部署后,meta的rsc预计将成为最大的nvidia dgx a100客户系统。
meta在一篇博客文章中表示:“我们希望rsc帮助我们建立全新的ai系统,例如可以为多个不同语言的团队提供实时语音翻译,使他们可以在研究项目上无缝协作,甚至一起玩ar游戏。”
训练最大的ai模型
当rsc在今年晚些时候完全建成时,meta将用它来训练具有超过1万亿个参数的ai模型。这将推动自然语言处理等领域的发展,比如实时识别不法内容等工作。
除了实现规模性能之外,meta还将超高的可靠性、安全性、隐私性以及处理“各类ai模型”的灵活性作为rsc的关键指标。
meta的ai研究超级集群拥有数百个nvidia dgx系统并通过nvidia quantum infiniband网络相连接,助力meta ai研究团队提高工作速率。
性能大揭秘
目前,此全新ai超级计算机已经部署了760个nvidia dgx a100系统作为其计算节点。共有6080个nvidia a100 gpu,通过nvidia quantum 200gb/s infiniband网络连接,可提供1895千万亿次tf32计算性能。
尽管受到新冠疫情的影响,这样一台可运行的ai超级计算机从想法到实现,rsc仅用了18个月! “功臣”之一便是采用nvidia dgx a100技术作为基石。
penguin computing是nvidia凯发k8官网下载的合作伙伴网络中负责rsc交付的凯发k8官网下载的合作伙伴。除了760个dgx a100系统和infiniband网络之外,penguin还为meta提供管理服务和ai基础架构优化,包括一个46pb高速缓存的altus系统。
性能提升20倍
这是meta第二次选择nvidia技术作为其研究平台的基础。2017年,meta打造了第一代ai研究基础架构,配备了22000个nvidia v100 tensor core gpu,每日可处理35000项ai训练工作。
meta的早期基准测试显示,rsc训练大型nlp模型的速度比之前的系统快3倍,运行计算机视觉工作的速度比之前的系统快20倍。
在今年晚些时候的第二阶段,rsc将扩展至16000个gpu。meta认为届时rsc将提供高达5百亿亿次级混合精度ai计算性能,并且meta希望通过扩展rsc的存储系统,以每秒16tb的速度提供高达1eb的数据。
可扩展架构
nvidia ai技术适用于任何规模的企业应用。
nvidia dgx包含一个完整的nvidia ai软件栈,可以轻松地从单个系统扩展至完整的dgx superpod,可以在本地或主机托管商处运行。客户亦可以通过nvidia dgx foundry租用dgx系统。