大规模实验开启大语言模型训练变革。在竞争激烈的人工智能领域,阶跃星辰研究团队开展的一场耗资百万美元的大规模实验,正改写大语言模型训练方式。团队耗费近100万NVIDIAH800GPU小时算力,从零训练3700个不同规模模型,累计训练100万亿个token,从而揭示出’Step Law’这一普适性缩放规律。
超参数优化研究取得突破。该研究不只是对超参数优化的探索,更是首个全面考察模型最优超参在不同条件下稳定性的工作。研究表明,无论模型架构、训练数据如何,’StepLaw’都具鲁棒性,大大提升其实际应用价值。
海量实验颠覆传统认知。团队训练的3700个模型涵盖多种配置,包括MoE和Dense架构。实验发现,最优学习率与模型参数、数据规模呈幂律变化,最优批量大小主要与数据规模相关,这颠覆了业界对超参数设置的传统认知。
超参数优化的新发现与工具开发。实验数据显示,固定模型与数据规模时,超参数优化的Landscape呈凸性特征,存在稳定易寻的最优超参数区域。团队构建三维可视化空间验证,并开发通用最优超参数估算工具,其预测结果与全局最优超参数性能差距仅0.09%。
‘Step Law’的普适性验证 。研究团队从模型形状、模型类型、数据分布三个角度验证了’StepLaw’的普适性,无论模型形状、类型如何变化,以及训练数据怎样分布,该规律都表现稳定。
学习率调度策略优化 。研究揭示了学习率调度策略的优化方向,提出采用固定最小学习率(1e-5),避免损失函数在收敛阶段持续振荡。
超参数选择的新方法 。研究发现平滑训练损失与验证损失的最优超参数高度一致,为超参数选择提供经济方法,可通过监控平滑训练损失指导调整。
研究展望与开源计划。阶跃星辰团队计划开源实验细节,包括近4000个模型最终检查点。未来研究方向包括探索三维空间凸性、改进最优超参数拟合方法等。PredictableScale系列后续工作或讨论超大模型性能预测等内容,将推动AI技术发展。