大规模实验揭示大语言模型训练新规律及最优超参数工具

大规模实验开启大语言模型训练变革。在竞争激烈的人工智能领域，阶跃星辰研究团队开展的一场耗资百万美元的大规模实验，正改写大语言模型训练方式。团队耗费近100万NVIDIAH800GPU小时算力，从零训练3700个不同规模模型，累计训练100万亿个token，从而揭示出’Step Law’这一普适性缩放规律。

超参数优化研究取得突破。该研究不只是对超参数优化的探索，更是首个全面考察模型最优超参在不同条件下稳定性的工作。研究表明，无论模型架构、训练数据如何，’StepLaw’都具鲁棒性，大大提升其实际应用价值。

海量实验颠覆传统认知。团队训练的3700个模型涵盖多种配置，包括MoE和Dense架构。实验发现，最优学习率与模型参数、数据规模呈幂律变化，最优批量大小主要与数据规模相关，这颠覆了业界对超参数设置的传统认知。

超参数优化的新发现与工具开发。实验数据显示，固定模型与数据规模时，超参数优化的Landscape呈凸性特征，存在稳定易寻的最优超参数区域。团队构建三维可视化空间验证，并开发通用最优超参数估算工具，其预测结果与全局最优超参数性能差距仅0.09%。

‘Step Law’的普适性验证 。研究团队从模型形状、模型类型、数据分布三个角度验证了’StepLaw’的普适性，无论模型形状、类型如何变化，以及训练数据怎样分布，该规律都表现稳定。

学习率调度策略优化 。研究揭示了学习率调度策略的优化方向，提出采用固定最小学习率（1e-5），避免损失函数在收敛阶段持续振荡。

超参数选择的新方法 。研究发现平滑训练损失与验证损失的最优超参数高度一致，为超参数选择提供经济方法，可通过监控平滑训练损失指导调整。

研究展望与开源计划。阶跃星辰团队计划开源实验细节，包括近4000个模型最终检查点。未来研究方向包括探索三维空间凸性、改进最优超参数拟合方法等。PredictableScale系列后续工作或讨论超大模型性能预测等内容，将推动AI技术发展。

# AI快讯

文章版权归作者所有，未经允许请勿转载。