大模型预训练优化器实测：矩阵方法比调优后AdamW快30%-40%，但这些误区要避开

大模型预训练的“成本命门”：优化器效率

2014年提出的Adam及其改进版AdamW，长期是开放权重语言模型预训练的主流优化器——它能帮助模型在海量数据中保持稳定训练，同时加快收敛速度。但随着模型规模飙升至十亿级，预训练已成为计算成本最高的环节之一：优化器的设计直接决定训练效率与成本投入。

近年来，Muon、Soap、Kron等矩阵型优化器声称能“显著加速”，部分方法宣称比AdamW快1.4-2倍。但斯坦福大学Percy Liang团队的最新研究指出：这些结论可能存在方法论缺陷——要么超参数调优不公平，要么短期评估误导，导致AdamW的真实性能被低估。

两大误区让优化器评估“失真”

研究团队梳理了此前优化器对比实验的核心问题：

超参数调优不公平：常用的AdamW基线往往“调优不足”——仅调整学习率这一个参数，就能让1.3亿参数模型的训练速度提升2倍；而不同优化器的最优超参数差异极大（比如Lion需要0.6的权重衰减，远高于AdamW的0.1），固定共享超参数会让比较失去公平性。
短期评估误导性强：仅用短时间训练窗口评估性能不可靠——随着训练推进和学习率衰减，不同优化器的损失曲线会多次交叉，性能排名可能逆转。比如部分优化器初期快，但后期被AdamW反超。

三阶段实验还原“真实加速比”

为纠正这些误区，团队设计了系统性对比实验：覆盖11种主流优化器（包括AdamW、NAdamW、Muon、Soap等），测试1亿到12亿参数的模型规模，以及1倍到8倍Chinchilla数据比例，并为每个优化器进行独立超参数调优（用坐标下降法扫描学习率、权重衰减、预热步数等8个参数）。

实验分三阶段展开：

阶段I：全面参数扫描：对1.3亿、3亿、5亿参数模型，在1倍到8倍Chinchilla数据量下，扫描所有超参数的最优配置，发现不同优化器的最优参数差异极大，盲目迁移会导致结果不公。
阶段II：敏感参数识别：针对学习率、预热长度等随模型规模变化的敏感参数进一步优化，通过缩放定律计算加速比，还原优化器真实性能。
阶段III：案例研究：测试12亿参数模型和16倍Chinchilla数据比例，验证超参数拟合效果，探索优化器局限。

三大结论重新定义优化器选择

实验得出三个关键结论，彻底刷新了对优化器的认知：

独立调优是公平比较的前提：优化器的最优参数无法迁移——若不独立调优，新优化器的实际加速效果远低于声称值（比如部分方法声称快2倍，但实际仅快10%）。
长期评估才能反映真实性能：短期快不代表长期好——部分优化器初期损失下降快，但后期学习率衰减后，损失曲线会被AdamW追上甚至反超。
矩阵方法是速度“天花板”：所有最快的优化器都采用基于矩阵的预条件子（而非传统逐元素标量缩放）。Muon、Soap、Kron等方法，相比调优后的AdamW，能实现30%-40%的单步训练加速。