谷歌新发现DiLoCo的Scaling Law,分布式训练或重塑大模型格局

AI快讯1个月前发布 niko
15 0
AiPPT - 一键生成ppt

分布式训练新突破:DiLoCo的Scaling Law亮相

谷歌研究员Zachary Charles宣布在大模型分布式训练上取得重大进展,全新的DiLoCo的ScalingLaw浮出水面。这一成果由谷歌ReseARCh、谷歌Search、谷歌DeepMind三大团队共同完成,为大模型训练带来新契机。

DiLoCo优势尽显:超越数据并行训练

与传统的数据并行训练相比,DiLoCo展现出诸多卓越特性。在不同模型规模下,其超参数稳定可预测;随着模型增大,优势愈发明显;所需带宽少,且能容忍更大批大小。这些特性让DiLoCo在大规模模型训练中潜力无限。

实验验证实力:多维度评估DiLoCo

研究团队通过大量实验评估DiLoCo。使用C4数据集训练模型,在多个下游任务上进行零样本评估。实验涵盖不同模型架构、算法和优化器,结果表明DiLoCo在规模、单副本表现、批大小影响、外部学习率等方面均有出色表现。

AI发展新方向:Chinchilla面临挑战

过去,Chinchilla策略推动AI发展,但如今面临挑战。新型「推理模型」兴起,如OpenAI的o1、o3等采用「测试时计算」技术,摆脱对大规模预训练的依赖。混合专家模型(MoE)也降低了基础设施需求。Chinchilla的未来取决于合成数据等技术的发展,AI行业正站在关键转折点。

© 版权声明
Trea - 国内首个原生AI IDE