人工智能超级计算机发展态势:性能飙升与成本压力并存
自2010年起,人工智能的进步极大依赖于人工智能超级计算机的指数级增长。从2019年至2025年,研究团队收集公开数据,构建了涵盖500多台人工智能超级计算机的数据集。领先的人工智能超级计算机性能提升显著,每9个月便实现一次翻倍。其中,xAI的Colossus表现突出,其拥有20万个AI芯片,在2025年3月成为性能最强的系统,计算性能是2019年领先的橡树岭国家实验室Summit的50多倍。
性能提升的双轮驱动:芯片数量与性能的双重增长
性能的提升主要得益于两个关键因素。一方面,人工智能超级计算机中的AI芯片数量每年增加1.6倍。以2019年1月的Summit为例,其拥有27,648个NVIDIAV100芯片,而到2025年3月,Colossus的NVIDIAH100和H200芯片数量多达20万个。另一方面,每个芯片的性能也在逐年提高,每年提升幅度达1.6倍。在研究期间,NVIDIA的V100、A100和H100芯片依次成为主流,其中H100在2024年7月超过总性能的50%。
成本与需求的增长:硬件与电力的双重挑战
然而,这种增长也带来了硬件成本和电力需求的大幅上升。硬件成本每年增长1.9倍,截至2025年3月,Colossus的估计硬件成本高达70亿美元。电力需求每年增长2.0倍,Colossus的电力需求约为300兆瓦,相当于25万户家庭的用电量。不过,人工智能超级计算机的能源效率也有所提高,每瓦计算性能每年提升1.34倍,这主要归功于更节能芯片的采用。
未来趋势与挑战:芯片、成本与电力的考验
若当前趋势持续,到2030年6月,领先的人工智能超级计算机将需要200万个AI芯片,硬件成本将达2000亿美元,电力需求将达9GW。尽管“星际之门计划”等重大资本投入表明芯片供应和硬件成本或许能够满足,但9GW的电力需求远超现有工业设施规模。为克服电力限制,分布式训练方法可能会被更多采用,使训练任务能分布在多地的人工智能超级计算机上进行。
行业格局的变化:公司主导与美国领先
在行业格局方面,公司逐渐成为人工智能超级计算机的主导力量。2019年至2025年,公司拥有的领先人工智能超级计算机性能每年增长2.7倍,而公共部门系统仅增长1.9倍。工业界在人工智能总计算力中的份额从2019年的40%升至2025年的80%。从地域分布来看,美国占据全球约75%的人工智能超级计算机性能,中国以15%位居第二。