5月14日,nvidia gtc 2020 创始人兼首席执行官黄仁勋的主题发布在万众期待中上线,也弥补了今年因疫情而转战线上的gtc版图中最为重要的一块拼图。虽然早在3月22日的gtc线上技术培训和讲座中或多或少已经透露了一些令人侧目的相关信息,然而当黄仁勋在先期预告中从厨房烤箱中拿出一块庞然大物的时候,大家还是难免好奇究竟是什么让这场发布迟到了近2个月。
图 黄仁勋的“厨房发布”主题演讲
在黄仁勋称之为“厨房发布”的主题演讲中,这块庞然大物的谜底最终被揭晓:基于nvidia最新ampere架构的gpu a100,这也是目前全球性能最强的gpu。宛如蝴蝶效应一般,在a100的带动下nvidia带来了在边缘计算、人工智能平台、图形渲染、自动驾驶等领域的一系列革新与进化。
基于最新ampere架构的a100
如今,企业在面对疫情带来的持续压力和不确定性时,数字化不仅是一个增强补充手段,更是顺应外界变化的核心引擎。在黄仁勋看来,云计算和ai的强大趋势正在推动数据中心设计的结构性转变,过去的纯cpu服务器正在被高效的加速计算基础架构所取代。
这也是nvidia这些年来不断创新突破ai计算平台的原因之一。本次发布的a100采用了nvidia全新的 ampere架构,该设计为nvidia第八代gpu提供了迄今为止最大的性能飞跃,集ai训练和推理于一身。作为一款通用型工作负载加速器,a100还被设计用于数据分析、科学计算和云图形。
图 nvidia a100 gpu
黄仁勋表示nvidia a100 gpu有史以来首次,可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。a100的五大关键特性包括:
• nvidia ampere架构---a100的核心是nvidia ampere gpu架构,该架构包含超过540亿个晶体管,这使其成为全球最大的7纳米处理器。
• 具有tf32的第三代tensor core核心---nvidia广泛采用的tensor core核心现在已变得更加灵活、快速且易于使用。其功能经过扩展后加入了专为ai开发的全新tf32,它能在无需更改任何代码的情况下,使fp32精度下的ai性能提高多达20倍。此外,tensor core核心现在支持fp64精度,相比于前代,其为hpc应用所提供的计算力比之前提高了多达2.5倍。
• 多实例gpu---mig,一种全新技术功能,可将单个a100 gpu分割为多达七个独立的gpu,为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化。
• 第三代nvidia nvlink---使gpu之间的高速联接增加至原来的两倍,实现服务器的高效性能扩展。
• 结构化稀疏---这种全新效率技术利用ai数学固有的稀疏性,使性能提升了一倍。
目前,多全球领先的云服务供应商和系统构建商计划将a100 gpu集成到其产品中,其中包括:阿里云、aws、atos、百度智能云、思科、dell technologies、富士通、技嘉科技、google cloud、新华三、hpe、浪潮、联想、microsoft azure、甲骨文、quanta/qct、supermicro和腾讯云。
值得一提的是,a100所采用的全新弹性计算技术能够为每项工作分配适量的计算能力。多实例gpu技术可将每个a100 gpu分割为多达七个独立实例来执行推理任务,而第三代nvidia nvlink®互联技术能够将多个a100 gpu合并成一个巨大的gpu来执行更大规模的训练任务。
拓展egx边缘ai平台
根据gartner数据预测显示,2021年40%的大型企业的项目会纳入边缘计算原则,而在前几年只有不到1%的企业会实施。如今,边缘计算将成为所有数字业务的必要需求。在a100的带动下,nvidia发布了两款性能强大的egx边缘ai平台产品:适用于较大型商业通用服务器上的 egx a100和适用于微型边缘服务器的微型egx jetson xavier nx。
egx a100和egx jetson xavier nx分别被设计用于满足不同尺寸、成本和性能需求。例如搭载了egx a100的服务器可以管理机场中的数百台摄像头,而egx jetson xavier nx则可用于管理便利店中的少量摄像头。在云原生凯发官网首页的技术支持下,nvidia能够确保整个egx产品家族都可以使用同一经过优化的ai软件轻松构建和部署ai应用。
这其中不同的是,egx a100是首个基于nvidia ampere架构的边缘ai产品。随着ai日益向边缘发展,企业机构可将egx a100添加到其服务器中,从而实时处理和保护来自边缘传感器的海量流式数据。egx a100结合了nvidia ampere架构所具有的突破性计算性能与nvidia mellanox® connectx-6 dx smartnic所具备的网络加速和关键性安全功能,能将标准型和专用型的边缘服务器转变为极具安全性的云原生ai超级计算机。
图 egx a100
而egx jetson xavier nx适用于微型服务器和边缘智能物联网盒。通过将nvidia xavier soc的性能整合到了一个信用卡大小的模块中,运行egx云原生软件堆栈的egx jetson xavier nx可以快速处理来自多个高分辨率传感器的流式数据。
图 egx jetson xavier nx
在具体应用时,该高效节能的模块能够在15w功率下提供最高21tops的计算力,或在10w功率下提供最高14tops的计算力。因此,egx jetson xavier nx为嵌入式边缘计算设备开启了大门——此类设备需要通过提高性能来支持ai工作负载,但同时又受限于尺寸、重量、功耗预算或成本等因素。
重新定义数据中心
随着云计算、大数据、人工智能、5g等新兴技术的演进,大数据应用的范围越来越广,数据作为一种资产逐渐成为共识。2019年中国数据中心保有量约为7万个,总面积约为2650万平方米;中国数据中心每年新增投资规模在1200亿~1400亿元人民币左右。
在传统的搭建流程中,一项关键性的工作就是要预先规划好基础设施扩展到多大的规模,然后开始构建网络架构,直至达到最终目标。虽然这种方法能够实现增长,但会产生大量前期成本。
nvidia提出用mellanox技术重新定义数据中心,其所拥有的架构能以最快的速度并行处理解决那些最复杂的问题。首先,dgx a100系统集成了8个全新nvidia a100 tensor core gpu,具有320gb内存用以训练最大型的ai数据集,以及最新的高速nvidia mellanox® hdr 200gbps互连。利用a100的多实例gpu功能,每台dgx a100系统能够被分割为多达56个实例,用于加速多个小型工作负载的处理速度。凭借这些功能,企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源,加快数据分析、训练和推理等各种工作负载的速度。
图 nvidia dgx a100
仿佛是进一步印证黄仁勋口头禅“买的越多,省的越多。”在具体数据中心应用中,一个由5台dgx a100系统组成的机架可代替一个包括了ai训练和推理基础设施的数据中心,而且功耗仅是其1/20,所占用的空间是其1/25,成本是其1/10。
而令人激动的是,利用mellanox hdr 200gbps infiniband互连技术,nvidia将140台dgx a100系统结合在一起,构建了dgx superpod ai超级计算机,ai计算能力高达700 petaflops,用于公司内部对话式ai、基因组学和自动驾驶等领域的研究。
图 新一代dgx superpod
该集群是全球速度最快的ai超级计算机之一,其性能相当于此前数千台服务器的性能。凭借dgx a100的企业就绪型架构和性能,nvidia得以在不到一个月的时间内构建了该系统,而以往交付具备这样能力的超级计算机需要花费数月甚至数年的时间来计划和采购专用的组件。此外,为了帮助客户构建他们自己的由a100赋能的数据中心,nvidia还发布了全新dgx superpod参考架构。该参考架构为客户提供了指引蓝图,使客户能够参照nvidia所采取的设计原则和最佳实践经验,构建他们自己的基于dgx a100的ai超级计算集群。
omniverse带来协作交互最佳体验
在专业图像渲染方面,nvidia发布了计算机图形和仿真模拟平台omniverse。众所周知,为了创建视觉效果、建筑可视化和制造设计,一般需要不同团队、不同远程办公地点和多个客户现场的多名人员协作审查,并且需要使用多种软件工具才能将资源3d化。但跨应用的无缝数据传输一直是全球数百万艺术家、设计师、建筑师、工程师和开发人员所面临的棘手问题之一。
作为一套基于nvidia rtx gpu和皮克斯universal scene description(usd)的实时图形和仿真模拟平台,本次发布的omniverse能够帮助用户轻松使用各类应用,并与世界各地的同事和客户进行同步协作。
这其中omniverse aec(工程和施工) experience功能集能够为工作室提供一套改进概念设计流程的工具,用户只需要一键点击即可在autodesk revit、mcneel rhino或trimble sketchup之间切换。用户无需进行数据准备或抽样,就能使用兼容的照片级逼真的渲染软件浏览大型模型。这就避免了转化延迟和切换软件工具造成的错误,大量节省了时间和成本。
为了充分发挥omniverse的作用,aec公司可以同时部署nvidia rtx server。用户可从全球oem处获得该高度可配置的参考设计,它能够处理多个图形和计算工作负载,并从根本上改变设计专业人员的创作过程。rtx server搭载业内领先的quadro rtx 6000和rtx 8000 gpu与nvidia quadro虚拟数据中心工作站(quadro vdws)软件,通过支持远程协作并提供omniverse aec experience所有功能的虚拟机,实现对omniverse平台的访问。
凭借rtx server和nvidia virtual compute server软件,即便是计算密集型工作负载(例如数据科学、深度学习和机器学习)也能被虚拟化。除了在omniverse中驱动出色的协作和仿真模拟工作流程之外,rtx server还是一个强大的渲染引擎,并且为边缘的增强现实和虚拟现实串流体验提供了基础。
图 nvidia rtx server
因此,用户几乎可以借助任何设备,一个瘦客户机或平板电脑,便可使用omniverse平台提供的协作功能。但如果采用搭载quadro rtx gpu的台式计算机或移动工作站,架构师、设计人员和工程师就可以充分利用omniverse view的功能,在共享场景中应用高精度的交互式视窗。
drive平台全方位性能提升
随着nvidia ampere架构的推出,nvidia drive平台得到了进一步的扩展。在drive agx产品系列向入门级自动驾驶平台拓展的同时,nvidia ampere架构也在进一步提升drive平台的计算性能,赋力下一代drive pegasus robotaxi自动驾驶平台。
在本次演讲中,黄仁勋宣布通过即将推出的orin系统级芯片(soc)系列和全新nvidia ampere gpu,对drive agx平台进行扩展。制造商能够通过单一架构部署高性能ai系统,使其产品阵容中的所有汽车都成为软件定义。
因此,本次的扩展范围从ncap 五星adas系统到drive agx pegasus robotaxi平台。后者配备两个orin soc和两块nvidia ampere gpu,可实现前所未有的每秒2000万亿次运算,超过上一代平台性能的6倍。
这也促使drive agx通过xavier soc和基于turing架构gpu的各种组合,可以提供l2级以上自动驾驶至l5级全自动驾驶功能。drive agx xavier具有30万亿次运算( tops)性能,nvidia drive agx pegasus平台的最大性能达到320 tops,可运行多个用于实时感知、规划与控制的冗余和不同深度神经网络。
例如电动汽车初创公司canoo推出了一款时尚的电动汽车,这款汽车的风格类似于大众经典车型microbus的未来风格。canoo宣布该汽车将配备nvidia drive agx xavier驱动的ai辅助驾驶功能。凭借计算平台具有的30 tops物体探测和传感器融合性能,能够运行构建十字路口警报、盲点探测和行人探测功能的先进算法,以及自适应巡航控制和车道偏离预防等便捷功能。
此外,豪华电动汽车制造商法拉第未来(faraday future)在本周宣布,将使用drive agx xavier开发新一代ff91。ff91以高性能、高能效计算为核心,配备至少36个传感器,具有先进的自动驾驶功能,这款旗舰级电动汽车有望在今年年底开始交付。
小结
在中国最新提出的“新基建”战略中,人工智能被认为是发挥产业头雁效应的七大领域之一。作为推进人工智能应用的基础,平台架构的每次升级都无疑带来性能的大幅度跃迁,随着nvidia ampere 图形架构以及a100的面世,无疑将进一步引领人工智能和数据科学领域发展。