DeepSeek-R1与AMD MI300X:性能超越英伟达H200的技术突破

AI快讯4周前发布 niko
0 0
AiPPT - 一键生成ppt

AMD MI300X展现强大实力,超越英伟达H200在当前的技术竞争中,DeepSeek-R1引发新一轮购卡热潮,同时AMD的地位显著提升。AMD的MI300X在运行FP8满血R1时,性能全面超越英伟达H200。在相同延迟下,其吞吐量最高可达H200的5倍;相同并发下,比H200高出75%。

技术助力:SGLang框架与AITER库这一优异成绩得益于两大关键因素。软件框架层面,SGLang框架发挥重要作用。它是开源大模型推理框架,由LMSYS发起,在GitHub上获超1.2万星标,受多方青睐,AMD还是主要贡献者之一。硬件层面,AMD为ROCm打造的AI张量引擎AITER功不可没。它是高性能AI算子存储库与统一平台,支持多种计算任务,能显著提升多种运算性能。

超参数调整优化性能除了框架与硬件适配,AMD还进行超参数调整。运行大量线程程序时,因预填充吞吐量缓慢出现性能瓶颈,AMD提高chunked_prefill_size参数大小,以更高内存占用换取预填充加速,契合MI300X内存容量大的特色。

性能对比凸显优势第三方对比测试显示,除首个Token延迟有不稳定情况,MI300X在速度和延迟指标上全面超越H100。在不同条件下,MI300X相比H200也展现出吞吐翻倍、延迟更低的优势,如Token间延迟不超50毫秒时,H200节点处理16个并发请求,MI300X节点能处理128个。

© 版权声明
Trea - 国内首个原生AI IDE