Moonlight模型：以Muon优化器革新大型语言模型训练

大型语言模型（LLMs）训练是人工智能领域技术进步的关键，但传统优化方法如AdamW在模型和数据集扩大时，暴露出计算成本高、训练不稳定等局限，像梯度问题、参数更新不一致及资源需求大等挑战频现。

在此背景下，Moonshot AI与加州大学洛杉矶分校（UCLA）携手推出Moonlight，这是一款采用Muon优化器的Mixture-of-Expert（MoE）模型。Moonlight有激活参数30亿和总参数160亿两种配置，训练运用了5.7万亿个标记。

Muon优化器独具创新，运用牛顿 -舒尔茨迭代法进行矩阵正交化，保障梯度更新在模型参数空间的均匀性，为AdamW提供了优质替代方案，有效提升训练效率与稳定性。

Moonlight对Muon优化器实施两项关键调整。一是引入权重衰减技术，抑制大模型与大量标记训练时权重的增长；二是校准每个参数的更新幅度，依据权重矩阵最大维度的平方根缩放，实现更新一致性。

实证评估表明，Moonlight在中间检查点表现超越传统AdamW训练模型。语言理解任务里，在MMLU基准测试中得分更高；代码生成任务上，性能提升更显著，凸显Muon优化机制对任务表现的积极作用。

Moonlight项目的成功为大型语言模型训练带来新标杆。Muon优化器开源、预训练模型及中间检查点发布，有望推动可扩展优化技术深入研究。

文章版权归作者所有，未经允许请勿转载。