DeepSeek-R1与AMD MI300X：性能超越英伟达H200的技术突破

AI快讯1年前 (2025)发布 niko

AMD MI300X展现强大实力，超越英伟达H200在当前的技术竞争中，DeepSeek-R1引发新一轮购卡热潮，同时AMD的地位显著提升。AMD的MI300X在运行FP8满血R1时，性能全面超越英伟达H200。在相同延迟下，其吞吐量最高可达H200的5倍；相同并发下，比H200高出75%。

技术助力：SGLang框架与AITER库这一优异成绩得益于两大关键因素。软件框架层面，SGLang框架发挥重要作用。它是开源大模型推理框架，由LMSYS发起，在GitHub上获超1.2万星标，受多方青睐，AMD还是主要贡献者之一。硬件层面，AMD为ROCm打造的AI张量引擎AITER功不可没。它是高性能AI算子存储库与统一平台，支持多种计算任务，能显著提升多种运算性能。

超参数调整优化性能除了框架与硬件适配，AMD还进行超参数调整。运行大量线程程序时，因预填充吞吐量缓慢出现性能瓶颈，AMD提高chunked_prefill_size参数大小，以更高内存占用换取预填充加速，契合MI300X内存容量大的特色。

性能对比凸显优势第三方对比测试显示，除首个Token延迟有不稳定情况，MI300X在速度和延迟指标上全面超越H100。在不同条件下，MI300X相比H200也展现出吞吐翻倍、延迟更低的优势，如Token间延迟不超50毫秒时，H200节点处理16个并发请求，MI300X节点能处理128个。

# AI快讯

文章版权归作者所有，未经允许请勿转载。