斯坦福戳破大模型优化器“加速神话”：宣称2×实则最高1.4×，规模越大效果越弱

大模型训练的核心成本痛点，始终绕不开预训练阶段——以DeepSeek V3为例，其预训练成本占比超95%。过去两年，多款声称“比AdamW快1.4×-2×”的新优化器层出不穷，但实际落地率极低。近日斯坦福大学的一项研究，终于戳破了这层“加速神话”：新优化器的真实训练效率提升远低于宣称值，最高仅达1.4×，且随模型规模增大而显著减弱。

基准测试揭开“加速虚高”真相：超参数调优是关键变量

研究团队针对“新优化器为何难落地”的问题，指出两大方法学缺陷：一是基线超参数调整不当，二是实验局限于小规模模型。为验证猜想，他们设计了覆盖四种数据-模型比（1×、2×、4×、8×Chinchilla最优范式）、模型规模扩展至1.2B参数的基准测试，并重点考察超参数调优对结果的影响。

实验结果颠覆认知：新优化器的加速效果不仅低于宣称的2×，且随模型规模增大而衰减。比如Muon、Soap等新优化器在0.1B小模型上能实现1.3×加速，但在8×Chinchilla比例下的1.2B模型上，加速比骤降至1.1×；即使是表现最好的优化器，相对调优后的AdamW基线，加速也不超过1.4×。

更关键的发现是，超参数的盲目迁移会导致不公平比较——仅调整GPT-3配方中的一个超参数，就能让预训练获得2×加速，这说明“优化器本身的优势”可能被错误归因。此外，早期损失曲线的误导性也被证实：不同优化器的损失曲线在学习率衰减期会多次交叉，用中间检查点评判的结果，可能与最终训练预算下的排名完全相反。

斯坦福戳破大模型优化器“加速神话”：宣称2×实则最高1.4×，规模越大效果越弱

（论文标题“神奇优化器在哪里”呼应《神奇动物在哪里》，暗含对“完美优化器”的质疑）

优化器设计三大新见解：小模型选矩阵型，超参数需“按尺度调整”

基于基准测试结果，研究团队提出三大优化器设计的关键结论：

小模型更适配基于矩阵的优化器：基于矩阵的优化器（如Muon、Soap）通过矩阵操作批量更新参数，在小于520M参数的模型上，持续优于基于标量的优化器（如AdamW、Lion）。后者即使调参后，平均加速比也不足1.2×；而矩阵型优化器在小模型上的加速比可达1.3×。
超参数需“按尺度敏感调整”：团队将超参数调优分为三阶段——细颗粒度遍历（在6种范式下找到局部最优解）、尺度敏感参数调整（聚焦跨尺度需重新调参的变量）、超参数缩放律拟合（通过非线性最小二乘预测大模型最优值）。结果显示，仅调整“尺度敏感超参数”就能将调参成本大幅降低，同时保持优化效果。
加速效果随数据-模型比变化：基于矩阵的优化器在数据预算增加时，加速比呈超线性上升，但随模型规模增大而下降。比如在1.2B参数模型上，所有优化器的加速比均降至1.1×左右。

斯坦福戳破大模型优化器“加速神话”：宣称2×实则最高1.4×，规模越大效果越弱

（图1左上显示：仅调一个超参数，GPT-3预训练就能获得2×加速，突显超参数的重要性）

实证结论：没有“万能优化器”，AdamW仍是“基准底线”

研究团队进一步总结了三大实证结论：

矩阵型优化器优于标量型，但增益有限：矩阵型优化器的加速比随数据预算增加而上升，但在1.2B大模型上仅达1.1×；标量型优化器中，NAdamW、Mars等方差削减变体虽能稳定超过AdamW，但增益仅在5%以内。
AdamW的轻量变体表现接近原版：Lion、Adam-mini等内存高效变体，尽管辅助状态更少，但其训练效率与AdamW的差距不超过5%，甚至在部分场景下更优。
“2×加速”是误读：所有优化器均未达到过往文献声称的2×加速，最高仅1.4×——这一结果需建立在“超参数精细化调整”的基础上。

研究团队：聚焦基础模型可复现性，从理论到实证的“破局者”

该研究由斯坦福大学博士生Kaiyue Wen（清华姚班本科）主导，合作导师包括斯坦福大学计算机科学系助理教授马腾宇（清华姚班本科、普林斯顿博士），以及斯坦福大学计算机科学副教授、基础模型研究中心（CRFM）主任Percy Liang。团队长期关注深度学习的理论与实证结合，此次研究正是其“通过严格基准测试提升基础模型可理解性”理念的落地——通过开源与可复现的实验设计，为优化器研究提供了更严谨的评价标准。

研究最终强调：大模型优化器的“加速神话”，本质是方法学缺陷导致的误读。未来优化器的设计，需更注重“模型规模与数据-模型比的适配性”，而非追求“通用加速效果”。而AdamW作为“基准底线”，仍将是大模型预训练的核心选择——除非新优化器能在10B以上规模模型上，证明更稳定的效率增益。

参考资料：https://arxiv.org/abs/2509.02046

# AI快讯

文章版权归作者所有，未经允许请勿转载。