英伟达竞品AI芯片来了？AMD三箭齐发，全线围攻AI服务器市场

独特魅力 2024-10-11 173

默认

摘要： 直播吧月日讯据西班牙媒体阿斯报消息皇马攻击手布拉欣迪亚斯右内收肌撕裂将伤缺约一个月的时间在皇马皇家社会的比赛中迪亚斯第分钟伤退迪亚斯受伤后还想带伤继续比赛但他最终无法坚持被换下未来...

直播吧09月15日讯据西班牙媒体《阿斯报》消息，皇马攻击手布拉欣-迪亚斯右内收肌撕裂，将伤缺约一个月的时间。在皇马vs皇家社会的比赛中，迪亚斯第23分钟伤退。迪亚斯受伤后，还想带伤继续比赛，但他最终无法坚持被换下。

AI未来指北作者郝博阳

编辑郑可君

美国时间10月10日，AMD在旧金山召开了Advancing AI发布会。这是老对手英伟达2024 AI Summit 结束后的第三天。

与英伟达大会的不同之处在于，英伟达专注于软件方面的更新，而AMD主打“硬”牌。

这一次，他们带来了三款核心硬件产品：新版Instinct MI325X 、第五代EPYC 服务器和的第三代 DPU Pensando系列。

一天之内，服务器GPU、CPU、DPU三箭齐发。AMD董事会及首席执行官苏姿丰似乎决心重现她在AMD的前十年里,以EPYC服务器为基石，带领AMD反超Intel的奇迹。

在开场词中，苏姿丰表示预计到2028年，AI加速器市场规模将达到5000亿美元。

这一次，我们认为她的目标更为宏大：通过打通服务器的各个节点，瞄准规模数千亿美元的AI服务器市场，成为领头羊。

苏姿丰还表示：对于AMD来讲，AI 意味着四件核心事项：作为训练和推理的最强计算引擎、开放的软件方案、建立深度共同创新的AI生态系统以及在集群水平上的系统设计。

本次发布会的三支箭正落在集群水平上的系统设计这一靶心。

野心已有，但最终还是要看三支箭是否足够“锋利”，能刺破英伟达构筑的AI服务器铁桶阵。

苏姿丰执掌AMD，十年磨两剑：一是Ryzen芯片，另一个就是EPYC CPU服务器。

从2018年开始，EPYC服务器从市占率接近0%，经过四代升级达到了2024年H1的34%。生生从英特尔手里夺走了CPU服务器市场的1/3份额。这也是苏姿丰最得意的一场仗。

为了形成一体化的AI服务器阵列，今年，EPYC迎来了它的第五代升级——EPYC 9005系列。

AMD 第五代 EPYC 处理器（代号"T in"）采用了台积电 3/4nm 制程和 Zen 5 架构，最高配置拥有16个 Zen5的 CCD核心，内含 192 核心和 384 线程。时钟频率可达 5GHz。这款处理器支持 X512 指令集，提供完整的 512 位数据路径，并实现了 17% 的 IPC 性能提升。它使用 SP5 ，兼容前代"Genoa"处理器。内存方面，它引入了DDR5支持，带宽提升至6400 MT/s；I/O能力上，它支持PCIe Gen5和更多的PCIe通道；安全性方面增硬件级别的根信任和可信I/O功能。

T in处理器的性能领先相当明显，相比于上一代英特尔Xeon服务器，T in在SPEC CPU 中性能提升2.7倍，企业性能最高提升4.0倍，HPC(高性能计算)性能最高提升3.9倍。在不同的工作中虽然表现不一，但整体相较上一代EPYC服务器，T in的提升也很大。

特别值得注意的是T in在AI方面的能力提升和对GPU节点控制的优化：它基于CPU的AI性能最高提升3.8倍，作为GPU主机节点时性能最高提升1.2倍。

对于这些提升，AMD做了一个形象的展示。如果你用T in服务器替代上一代Xeon服务器的话，131个T in就足够达成1000个Xeon服务器的效果。

AMD还对T in的AI适用性加强做了更深入的阐述。因为在AI时代，越来越少的人会把服务器专用于一般用途，多少都得和AI结合上，而在这种情况下，对AI有更好支持的T in就是的选择。

AMD也在意T in作为GPU主机节点带来的GPU算力提升。AMD优化了CPU在AI工作流程中的关键动作，包括数据预处理、内存、内核启动和任务协调等。这些优化使得CPU在处理GPU协调任务时更，比前代产品快28%。

AMD和Xeon 8592做了一下对比，T in让MI300X的推理性能提升了8%，训练性能提升了20%。

针对英伟达H100，T in更是使GPU集群的推理性能提升了高达20%，训练提升了15%。比自家的MI300X都强。

第五代EPYC的表现和侧重，一方面显示了AI战略在AMD当下战略中的重要性。另一方面也是对英特尔近两代Xeon服务器都大力强调AI能力的回应——就算上了AI，AMD的CPU服务器还是遥遥领先。

第二支箭：MI325X登场，下一代GPU剑指B200

发布会上，苏姿丰放出的第二支箭是MI300系列的第二代产品MI325X。它曾在2024 ComputerX上被简短介绍过，但其技术细节从未被公布。作为目前最有望打破英伟达垄断的GPU加速器产品，MI300系列的下一代产品备受关注。

此刻，终于揭晓：MI325X性能上超越了H200。

MI325X加速器采用了 AMD CDNA 3 GPU 架构，配备 256GB 下一代 HBM3E 高带宽内存。内置 1530 亿个晶体管。它提供了 6TB/s 的内存带宽，在 FP8 和 FP16 精度下分别达到 2.6 PF 和 1.3 PF 的峰值理论性能。

与英伟达上一代的旗舰GPU 加速器H200相比，MI325X的内存容量更大（256Gvs141G），内存带宽也更高（6TB/s vs 4.8TB/s）。在算力方面，虽然英伟达宣称H200的FP16 算力可达1.9 PF，但经semianalysis实测，其实际算力约为1 PF，与H100持平，比MI325X低了30%。

因此AMD MI325X在推理方面的表现平均超越H200 30%，与其算力比提升相符。保持了上一代的领先优势。

由MI325X核心集成的GPU 包含 8 个 MI325X。该总共提供 2TB HBM3E 高带宽内存，FP8 精度下的理论峰值性能达到 20.8 PF，FP16 精度下达到 10.4 PF。系统配备 AMD Infinity Fab c 互连技术，带宽高达 896 GB/s，总内存带宽达到了 48 TB/s。

相比于H200的集成 H200 HGX，MI325X 提供1.8倍的内存量，1.3倍的内存带宽和1.3倍的算力水平。

在推理方面能相较H200 HGX提升至多1.4倍的表现水平。

AMD版GPU软件系统ROCm在过去一年内和主流AI开发的适配性一直在磨合期，这导致其训练效果有待提升。但这一年来AMD一方面加强升级ROCm，一方面与AI开发深度合作，总算是让它有了一倍左右的提升。

这一提升的结果是，针对Meta Llama-2这种主流模型，MI325X的单GPU训练效率终于超越了H200。而在集群中，其训练效率仍和H200 HGX相当。

MI325X预计将于 2024 年第四季度开始出货，与H200的大规模交付相差仅一个季度。鉴于目前英伟达遇到了B200和B100的封装瓶颈，规模发货被延迟，交付给OpenAI的也仅仅是工程样机。如果MI325X的发货规模能快速爬升，那理论上的代差就会被实际的出货情况抹平，MI325X在市场上的实际对手就是H200，而它还比H200性能稍高。

现在就看AMD能否抓住这个窗口期，保证供应链，趁机扩大市场了。

除了MI325X外，AMD还详细介绍了更下一代MI300系列的GPU加速器MI350系列。

它采用了 AMD 的 CDNA 4 架构，使用先进的 3nm 制程工艺，配备高达 288GB 的 HBM3E 高带宽内存。MI350 系列的一个重要创新是新增了 FP4 和 FP6 数据类型支持，这可能会在保持计算精度的同时进一步提高 AI 训练和推理性能。

据AMD表示，MI355X的在FP16数据格式下的算力可达到2. F，比MI325X提升1.8倍，与B200的算力持平。而在FP6和FP4格式下，其算力可达9.2PF，比B200在FP6格式下算力提升近一倍，而与其在FP4格式下算力持平。

因此MI355X可以被视为AMD真正剑指B200的GPU芯片。

而MI355X的集成则配备了 2.3TB HBM3E 高带宽内存，内存带宽高达 64 TB/s。在计算性能方面，MI355X 在 FP16 精度下可达 18.5 PF，FP8 精度下达到 37 PF。在新增的 FP6 和 FP4 数据类型下，它能达到 74 PF 的理论峰值性能。

不过这一产品需要等到2025年下半年才能发售。

AMD还在发布会上公布了其路线图，除了以上的产品外，2026年AMD预计会发售基于新架构的MI400系列GPU芯片。

除了硬件，AMD也提了一下自己在软件栈上的进展。近一年来，AMD打通了所有主要AI开发。获取了PyTorch的零日更新（可以在软件升级当天使用其新功能）支持及T ton的AMD 硬件兼容。

在模型层面，AMD加强了与Huggingface和Meta的合作，对于超过100万种主流模型都能做到开箱即用。Meta的Llama模型还能做到零日支持（可以在模型升级当天使用其新功能）。

在这一系列合作的加持下，ROCm 的版本6.2，相较于旧版在推理和训练上都有了超过2倍的提升。

在2024年第二季度的财报中，MI300在单季度内就实现了超过10亿美元的销售额，这一成绩远超市场预期。虽然服务器业务综合销售额仅为英伟达同期的13%。但就目前的形势来看，MI325X很有可能扩大MI300带来的市场占有率。

至于价格，AMD表示从性价比上讲，MI325X将相对竞争对手保持优势。

对于大多数公司来讲，数据传输可能才是他们模型训练中最大的拦路虎。

想要构建一个好的数据服务器集群，除了算力扎实以外，核心任务是实现的数据传输，确保能够快速处理和分发海量的训练数据，从而最大化GPU利用率。

与此同时，支持大规模GPU并行计算也成为了一项关键能力，服务器需要能够协调大量GPU的同时运作，并在扩展过程中保持近乎线性的性能提升。

很多基础模型公司甚至将它作为AI工程的核心。Meta在训练Llama 3.1时就专门搭建了一个相当复杂的集群，力图增加并联GPU数量和数据效率，并选择了RoCE v2传输协议网络问题。经过多次分路和调整数据包的大小实验，Meta的工程团队才成功达成了一个相对的数据传输水平和稳定性。

（Meta的相关论文）

但这种工程能力并非所有开发模型的公司都有，数据传输往往会成为计算集群的核心卡点，使得GPU的算力无法得到满载发挥。

AMD这次推出的第三代可编程 P4引擎就旨在这一问题。它的传输速度可以达到400GB/s，与英伟达的DPU BlueField-3持平。而且它支持12 每秒的可编程数据包，和5M每秒的并发服务速度。

这一芯片的核心特性就是在处理并联GPU的后端网络优化，它能针对高负载数据进行负载均衡和拥塞管理，可以避免同一数据通路上产生数据包阻塞，还能在丢包时仅重发丢失的包，而非一口气把所有数据重发一遍；它还支持快速故障恢复，可以绕过出现错误的GPU所在的数据通路，避免整个集群直接瘫痪，并试图自动修复该处的数据包故障。

AMD为前端网络提供的方案是Pensando Salina 400 DPU，它采用 400G PCIe Gen 5 接口，配备 232 P4 多服务MPU，双通道 DDR5 内存（带宽高达 102GB/s，最大容量 128GB），以及 16 个 N1 ARM 核心。该产品支持软件定义网络、有状态防火墙、加密、负载均衡、网络地址转换和存储卸载等功能。其核心数量与BlueField-3持平，但内存和带宽都有提升（BlueField-3仅有32G DDR5内存）。

简单来说，这一DPU从硬件基础上比英伟达的同类产品BlueField-3拥有更多的吞吐内存，在网络调节中也更自由。

而后端网络的网卡则为Pensando Pollara 400，这是业界首款支持 Ultra Ethernet Consortium 标准的 AI 网络接口卡（NIC）。该产品具有可编程硬件管道，性能提升最高达 6 倍，支持 400Gbps 的网络速度。它采用开放生态系统设计，支持 UEC Ready RDMA 技术，可缩短作业完成时间，并提供高可用性。Pollara 400 的主要特性包括可编程 RDMA 传输、可编程拥塞控制和通信库加速。

因此，通过AMD的DPU产品，其对于AI服务器网络的利用率可以达到95%，而一般未优化数据网络仅能做到不到50%。

这些提升背后的秘密武器是UEC（以太网联盟）协议，据AMD宣称，其相比于Meta训练时使用的传统的RoCE v2协议，服务器中信息传输速度能提高 6 倍，集群间信息传输速度提高了5倍。而且之前的智能分路等多种功能也都是内嵌于UEC协议之中的。

目前AMD的新款DPU是支持UEC协议的数据网络传输产品。英伟达的BlueField-3目前仅支持EoCE v2协议，而且它想要转换协议并非易事，除了需要面对AMD的专利瓶颈外，硬件兼容性也需要一个较长的过程才能完成。

虽然AMD在2022年就收购了Pansando公司，并推出了两代DPU产品。但它都没能打破英伟达由BlueField系列构建的DPU霸权。毕竟据英伟达介绍，搭配BlueField，英伟达的GPU集群表现可以提升1.7倍。

但如果UEC被实际证明确实，AMD就至少成功抢占了在DPU上的先发优势。

在苏姿丰的带领下，AMD花了十年时间重新回到了芯片的核心赛圈。

而下一个十年，也是AI蓬勃发展的黄金十年。苏姿丰瞄准这一方向冲刺，她在采访中曾说：“AI正在推动一场革命，并迅速重塑科技行业的方方面面，从数据中心到AI PC和边缘计算。”

在新的十年的开始之际，AMD通过这次发布会准备在AI领域进行全线布局，让服务器的三大支柱都ALL IN AI。

不过，AMD是否还能继续攻城略地，成功逆袭，目前尚未可知。这次苏姿丰面对对手毕竟与当初不同。

标签：伟达提升 AMD