谷歌新发现DiLoCo的Scaling Law，分布式训练或重塑大模型格局

分布式训练新突破：DiLoCo的Scaling Law亮相

谷歌研究员Zachary Charles宣布在大模型分布式训练上取得重大进展，全新的DiLoCo的ScalingLaw浮出水面。这一成果由谷歌ReseARCh、谷歌Search、谷歌DeepMind三大团队共同完成，为大模型训练带来新契机。

DiLoCo优势尽显：超越数据并行训练

与传统的数据并行训练相比，DiLoCo展现出诸多卓越特性。在不同模型规模下，其超参数稳定可预测；随着模型增大，优势愈发明显；所需带宽少，且能容忍更大批大小。这些特性让DiLoCo在大规模模型训练中潜力无限。

实验验证实力：多维度评估DiLoCo

研究团队通过大量实验评估DiLoCo。使用C4数据集训练模型，在多个下游任务上进行零样本评估。实验涵盖不同模型架构、算法和优化器，结果表明DiLoCo在规模、单副本表现、批大小影响、外部学习率等方面均有出色表现。

AI发展新方向：Chinchilla面临挑战

过去，Chinchilla策略推动AI发展，但如今面临挑战。新型「推理模型」兴起，如OpenAI的o1、o3等采用「测试时计算」技术，摆脱对大规模预训练的依赖。混合专家模型（MoE）也降低了基础设施需求。Chinchilla的未来取决于合成数据等技术的发展，AI行业正站在关键转折点。

文章版权归作者所有，未经允许请勿转载。