大模型预训练优化器实测:矩阵方法比调优后AdamW快30%-40%,但这些误区要避开

AI快讯5秒前发布 niko
1 0

大模型预训练的“成本命门”:优化器效率

2014年提出的Adam及其改进版AdamW,长期是开放权重语言模型预训练的主流优化器——它能帮助模型在海量数据中保持稳定训练,同时加快收敛速度。但随着模型规模飙升至十亿级,预训练已成为计算成本最高的环节之一:优化器的设计直接决定训练效率与成本投入。

近年来,Muon、Soap、Kron等矩阵型优化器声称能“显著加速”,部分方法宣称比AdamW快1.4-2倍。但斯坦福大学Percy Liang团队的最新研究指出:这些结论可能存在方法论缺陷——要么超参数调优不公平,要么短期评估误导,导致AdamW的真实性能被低估。

两大误区让优化器评估“失真”

研究团队梳理了此前优化器对比实验的核心问题:

  • 超参数调优不公平:常用的AdamW基线往往“调优不足”——仅调整学习率这一个参数,就能让1.3亿参数模型的训练速度提升2倍;而不同优化器的最优超参数差异极大(比如Lion需要0.6的权重衰减,远高于AdamW的0.1),固定共享超参数会让比较失去公平性。
  • 短期评估误导性强:仅用短时间训练窗口评估性能不可靠——随着训练推进和学习率衰减,不同优化器的损失曲线会多次交叉,性能排名可能逆转。比如部分优化器初期快,但后期被AdamW反超。

三阶段实验还原“真实加速比”

为纠正这些误区,团队设计了系统性对比实验:覆盖11种主流优化器(包括AdamW、NAdamW、Muon、Soap等),测试1亿到12亿参数的模型规模,以及1倍到8倍Chinchilla数据比例,并为每个优化器进行独立超参数调优(用坐标下降法扫描学习率、权重衰减、预热步数等8个参数)。

实验分三阶段展开:

  • 阶段I:全面参数扫描:对1.3亿、3亿、5亿参数模型,在1倍到8倍Chinchilla数据量下,扫描所有超参数的最优配置,发现不同优化器的最优参数差异极大,盲目迁移会导致结果不公。
  • 阶段II:敏感参数识别:针对学习率、预热长度等随模型规模变化的敏感参数进一步优化,通过缩放定律计算加速比,还原优化器真实性能。
  • 阶段III:案例研究:测试12亿参数模型和16倍Chinchilla数据比例,验证超参数拟合效果,探索优化器局限。

三大结论重新定义优化器选择

实验得出三个关键结论,彻底刷新了对优化器的认知:

  • 独立调优是公平比较的前提:优化器的最优参数无法迁移——若不独立调优,新优化器的实际加速效果远低于声称值(比如部分方法声称快2倍,但实际仅快10%)。
  • 长期评估才能反映真实性能:短期快不代表长期好——部分优化器初期损失下降快,但后期学习率衰减后,损失曲线会被AdamW追上甚至反超。
  • 矩阵方法是速度“天花板”:所有最快的优化器都采用基于矩阵的预条件子(而非传统逐元素标量缩放)。Muon、Soap、Kron等方法,相比调优后的AdamW,能实现30%-40%的单步训练加速。

最优选择取决于“场景”

有趣的是,优化器的表现与具体场景强相关:

  • 在标准Chinchilla数据比例(模型与数据量匹配)下,Muon性能最佳;
  • 当数据量是Chinchilla比例的8倍以上时,Soap更优——高数据比例下,Soap的二阶动量更有效。

矩阵型优化器的“局限”

研究也揭示了矩阵型方法的潜在不足:

  • 加速比随模型规模增大而衰减——12亿参数模型上,Muon的加速比降至1.2倍以下;
  • 高数据比例下优势缩小——16倍Chinchilla数据量下,Soap在3亿参数模型上超过Muon,NAdamW也能追上。

研究信息与资源

大模型预训练优化器实测:矩阵方法比调优后AdamW快30%-40%,但这些误区要避开

左:加速比随模型规模增大而衰减——12亿参数模型上,部分优化器的加速比降至1.1倍;右:矩阵型优化器(Kron、Soap、Muon)的损失曲线始终优于标量型(AdamW、NAdamW)。

大模型预训练优化器实测:矩阵方法比调优后AdamW快30%-40%,但这些误区要避开

左:12亿参数模型上,Muon、Soap仍比AdamW快,但加速比降至1.2倍以下;右:16倍Chinchilla数据量下,Soap在3亿参数模型上超过Muon。

© 版权声明