在发布的新数据中摩根士丹利研究部,该公司比较了推理工作负载中人工智能解决方案的运营成本和利润率。据透露,大多数 AI 推理“工厂”或运行多个芯片用于 AI 推理的公司都享有超过 50% 的利润率,而 NVIDIA 在其中处于领先地位。
为了进行评估,选择了一系列 100MW 的人工智能工厂,这些工厂由不同供应商的服务器机架组成。其中包括 NVIDIA、谷歌、AMD、AWS 和华为平台。其中,英伟达的GB200 NVL72“Blackwell”GPU平台提供了最高的77.6%的利润率,预计利润约为35亿美元。
谷歌以其 TPU v6e Pod 以 74.9% 的利润率位居第二,第三名是 AWS Trn2 Ultraserver,利润率为 62.5%。其余解决方案确保了大约 40-50% 的利润率,但最有趣的是 AMD 的数据表明他们还有很多工作要做。
AMD 最新的 MI355X 平台在 AI 推理方面的利润率为负 28.2%,而较旧的 MI300X 平台在 AI 推理方面的利润率为负 64.0%。该公司还将每芯片每小时的收入与租金(平均为 10.5 美元)细分。
NVIDIA 的 GB200 NVL72 芯片每小时收入为 7.5 美元,排名第二的是 NVIDIA 的 HGX H200,每小时收入为 3.7 美元,而 AMD 的 MI1.7X 平台每小时收入为 355 美元。其他芯片大多每小时产生 0.5-2.0 美元的收入,因此 NVIDIA 处于完全不同的水平。
NVIDIA 在 AI 推理方面的巨大领先优势归功于其 FP4 支持和对 CUDA AI 堆栈的持续优化。该公司已经对其几款旧 GPU 展示了“美酒”处理,例如 Hopper 甚至 Blackwell,它们每个季度的性能都会继续提升。
AMD 的 MI300 和 MI350 平台在硬件方面也很棒,该公司在端一直在做大量的软件优化。但看起来 AMD 仍有一些领域需要努力,AI 推理就是其中之一。
摩根士丹利强调的另一件事是,MI300X 平台的 TCO(总拥有成本)高达 7.44 亿美元,与 NVIDIA 的 GB200 平台相当,约为 8 亿美元。所以成本因素似乎对AMD不利。
较新的 MI355X 服务器的总体拥有成本估计为 5.88 亿美元,与华为的 CloudMatrix 384 相当。较高的初始成本可能是 NVIDIA 如此受欢迎的原因,因为它们在投资成本方面可以与 AMD 相当,但提供更高的 AI 推理性能,据说未来几年将占 AI 市场的 85%。
NVIDIA 和 AMD 还专注于年度节奏,以保持彼此的竞争力。NVIDIA 将于今年推出其 Blackwell Ultra GPU 平台,比 Blackwell GB50 提升 200%,明年将推出 Rubin,将于 2026 年上半年投入生产。紧随其后的是鲁宾·奥特尔和费曼。另一方面,AMD 将在明年推出 MI400 来与 Rubin 竞争,我们也可以期待 MI400 对 AI 推理的多项优化,因此对于 AI 领域来说,这将是有趣的一年。
微软资讯推荐
win10系统推荐
系统教程推荐