英伟达继续高歌猛进,amd与英特尔的ai计划恐难招架-凯发官网首页
 
 
  »  凯发官网首页-凯发k8官网下载  »  资讯  »  正文

英伟达继续高歌猛进,amd与英特尔的ai计划恐难招架-凯发官网首页

2023年10月16日     来源:至顶网         
关键字:    
       但若cpu双雄能够用好自己手中的渠道网络,胜负仍在未定之天。

  在疯狂发掘生成式ai潜能的过程当中,英伟达仍是一马当先的头号玩家,仅今年第二季度的收入就较去年同期增长了一倍还多。为了确保这一领先地位,这位gpu巨头显然打算继续加快新款加速器的开发速度。

  对于过去几代产品而言,两年一更新的速度足以保持竞争优势。但根据本月早些时候投资者们看到的演示文稿,英伟达手中除了b100这张王牌,还有将arm核心与blackwell架构匹配打造的全新“超级芯片”,外加l40及l40s的迭代产品。

  这倒也不令人意外,毕竟整个行业都期待着英伟达能在2024年年内公布下一代架构及b100的各个型号。

  可接下来的情况还是出乎所有人的预料。
1
  根据本月发布的投资者演示文稿,英伟达计划将新品发布节奏从两年调整为一年。

  从资料来看,英伟达即将转向一年发布一次的新节奏。具体来讲,基于blackwell的b100及相关型号将于2025年替换为“x100”系列。这里我们姑且认为“x”只是个占位符,黄仁勋可能仍在考虑具体要用哪位数学家、计算机科学家或者工程师来命名新架构。但重点在于:英伟达打算加快新gpu的迭代速度。

  攻势加快之下,英特尔与amd该如何自处?

  这种转变无疑给amd和英特尔等厂商带来了潜在挑战,毕竟他们的gpu和ai加速器发布周期仍然是两年。

  例如,amd在英伟达a100推出的约一年之后发布了instinct mi200系列加速器,声称除了英伟达的稀疏性支持优势之外,instinct mi200的双精度性能其实更强、fp16 flops则基本相当。

  与a100相比,instinct mi200让amd在高性能计算应用方面获得了明显优势,也因此成为欧洲lumi及美国能源部frontier超级计算机等大型系统中的核心组成部件。

  如今,随着市场对于生成式ai的需求不断增长,amd希望针对较低精度工作负载进行进一步调整,借此在gpu和apu两条战线上挑战英伟达的ai主导地位。但是,如果技术媒体the next platform汇总的mi300a/x性能评估结果属实,那么amd的最新芯片最终可无法在flops上与h100直接竞争,只是在内存容量上略胜一筹。具体来讲,该芯片预计将提供128 gb至192 gb的hbm3内存,相较于h100具有微弱优势。

  英特尔在今年9月的innovation大会上着力宣传了一波ai计划,其处境也与amd基本相当。芯片巨头此前曾决定加快cpu和gpu的发布节奏,但经过部门重组和成本削减规划之后,最终决定放弃gpu业务。

  这一决定直接导致xpu cpu-gpu架构和rialto bridge胎死腹中。顺带一提,rialto bridge原本作为阿贡国家实验室aurora超级计算机所采用的ponte vecchio加速器的后续产品。随后,英特尔公司又重新将falcon shores设计的发布时间从2024年推迟至2025年,理由是此举“符合客户对新产品的发布期望,并为开发生态系统留出时间”。

  后面这条消息非常有趣,这意味着英特尔会将其gpu max和habana labs架构统一至同一平台之下。也就是说,此前gaudi2和gpu max分属两个产品家族,但从gaudi3开始将正式合兵一处。

  与a100相比,gaudi2表现出可观的性能表现。但在其去年推出时,英伟达更加强大的h100已经发布,距离正式出货也只有几个月时间。

  habana的下一代加速器gaudi3看起来倒是很有前途,但它不仅需要超越h100和amd mi300等同类竞品,还得跟即将推出的英伟达b100加速器相抗衡。

  semianalysis创始人dylan patel是最早意识到这个问题的观察者之一。这倒不是说mi300或者gaudi3甫一面世就已过时,但从加速技术的发展路线图来看,它们的机会窗口恐怕会比过去短得多。

  在他看来,“在特定的窗口期内,mi300仍会是市场上最好的芯片。”他还补充道,虽然我们对英特尔gaudi3所知甚少,但如果继续保持以往的扩展速度,那它应该会比英伟达h100更强大。

  从长远来看,他预计英特尔和amd将不得不跟上英伟达的节奏,加快自己的cpu和加速器开发路线图。

  正如我们之前所指出,即使英特尔和amd的下一代加速器无法击败英伟达,它们最终也仍有望凭借更成熟的渠道网络获得市场认可。据报道,英伟达的h100受到台积电先进封装技术的限制,这种产能短缺预计要到2024年才能得到解决。虽然amd的mi300系列产品可能也会遇到类似的挑战(其同样采用这些先进的封装技术),但英特尔自身也拥有封装能力,只是还没有明确公示gaudi3是否会使用这项技术,或者打算继续像英伟达和amd那样依赖外部代工服务。

  加快脚步的不只有加速器

  更值得注意的是,英伟达加快的并不仅仅是加速器产品的发布节奏,同时也加快了quantum infiniband和spectrum以太网交换产品组合的开发速度。

  虽然单个gpu也能承载,但ai训练和hpc应用程序往往需要在大型加速器集群上才能高效运行,因此网络功能也必须紧紧跟上其发展步伐。

  随着2020年收购长期凯发k8官网下载的合作伙伴mellanox,英伟达目前也掌握了自己的网络技术栈,包括mellanox的交换与网卡产品组合。

  目前,英伟达最快的交换机infiniband最高可达25.6 tbps,以太网最高则可达51.2 tbps。这些带宽被分配给多个200至400 gbps端口。但在新的发布节奏之下,英伟达的目标是在2024年将端口速度提高至800 gbps,在2025年将端口速度提高至1600 gbps。

  这不仅需要通过更强大的交换机芯片将带宽提供至51.2至102.4 tbps区间,还需要更快的200 gbps串行器/解串器(serdes)以支持1600 gbps qsfp-dd模块。

  实现这种网络性能的必要技术已经存在,博通就演示了其200 gbps serdes。但我们还没有在英伟达的宣传内容中看到它的身影。patel指出,理想情况下,英伟达必须得依靠infiniband和以太网达到102.4 tbps传输带宽,才能真正实现800 gbps网卡。

  pcie的问题

  这恐怕就是英伟达总体规划中的最大软肋,或者说技术难关。受到pcie的限制,使用现有网卡恐怕无法及时提供如此恐怖的传输速率。目前,网卡的实际限制是单个端口400 gbps。pcie 6.0倒是有希望实现800 gbps,但要想让1600 gbps这个恐怖的数字成为现实,我们恐怕需要的是pcie 7.0。

  我们已经知道,英特尔的下一代至强在2024年推出时将不支持pcie 6.0;至于amd即将推出的turing epycs,我们掌握的情报还不充分,无法判断其是否支持pcie 6.0。但乐观的一面是,amd在过去几代产品中对pcie新标准的支持一直领先于英特尔。

  然而,x86也并不是英伟达的唯一选择。该公司现在已经拥有自己基于arm的cpu。因此,英伟达可能计划在grace的后继产品上支持pcie 6.0。arm处理器曾经是首批在2022年初添加pcie 5.0支持的处理器之一,所以我们同样有理由相信类似的情况未来会再发生一次。

  考虑到这个问题,patel预计b100实际上将分为两个版本。其一将采用pcie 5.0,并具有与h100相同的700瓦热设计功率(tdp),这样客户就能将新的hgx主板直接接入现有机箱设计当中。在他看来,第二个版本将拥有更高的功率、需要配合水冷设计,并能够支持pcie 6.0。

  但对于英伟达打算在2025年实现的1600 gbps端口传输带宽,首选答案恐怕将是pcie 7.0,但此项技术还未最终确定。patel表示,“根据标准机构透露的消息,搭载pcie 7.0的产品最早也要到2026年才能落地。所以英伟达提出的这个时间表根本无法实现。”

  而另一个选项则是绕过pcie总线。正如patel指出,英伟达其实并不需要在gpu和cpu之间实现pcie 6.0或pcie 7.0级别的带宽,保证网卡和gpu间有此带宽就足够了。因此,他预计英伟达稻有可能会直接绕过cpu这个传输瓶颈。

  事实上,英伟达已经在某种程度上做到了这一点。在最近几代产品中,英伟达通过使用pcie交换机有效将gpu与connectx网卡连接了起来。patel表示,英伟达可能会进一步扩展这种方法,从而实现比单个pcie 5.0或pcie 6.0 x16插槽更高的端口传输速度。

  他表示,对于x100这代产品,有传闻称英伟达可能会在2025年放弃用pcie在x100的网卡和gpu间进行通信,转而采用其他专有互连技术。

  说到这里,一直关注英伟达ai技术发展的朋友可能会好奇,这家芯片制造商手中的超高带宽nvlinks结构为什么不赶紧顶上。此项技术主要用于将多个gpu网格连接起来,使其在实效层面成为一个大型gpu。通过添加nvlink交换机,跨多节点扩展应该不是什么难事。

  然而,nvlink也存在一些重大局限,特别是在覆盖范围和可扩展性方面。虽然nvlink比之前提到的方案都快得多,但最多只能支持256个设备。要扩展到此范围之外,就只能使用infiniband或以太网将各个集群拼接在一起。

  nvlink网格还只适用于gpu到gpu间的通信,而无法处理gpu系统上的数据传入/传出和工作负载协调需求。

  因此,英伟达能否成功加快产品迭代速度,将在很大程度上取决于网络传输速度跟不跟得上。如果不行,那么传输阻塞将大拖后腿、芯片性能升级也将无从谈起。
责任编辑:
e-works
官方微信
掌上
信息化
排行榜
编辑推荐
文章推荐
博客推荐
视频推荐
2023/7/28
2023/7/12
2023/7/12
网站地图