大型语言模型(LLMs)训练是人工智能领域技术进步的关键,但传统优化方法如AdamW在模型和数据集扩大时,暴露出计算成本高、训练不稳定等局限,像梯度问题、参数更新不一致及资源需求大等挑战频现。
在此背景下,Moonshot AI与加州大学洛杉矶分校(UCLA)携手推出Moonlight,这是一款采用Muon优化器的Mixture-of-Expert(MoE)模型。Moonlight有激活参数30亿和总参数160亿两种配置,训练运用了5.7万亿个标记。
Muon优化器独具创新,运用牛顿 -舒尔茨迭代法进行矩阵正交化,保障梯度更新在模型参数空间的均匀性,为AdamW提供了优质替代方案,有效提升训练效率与稳定性。
Moonlight对Muon优化器实施两项关键调整。一是引入权重衰减技术,抑制大模型与大量标记训练时权重的增长;二是校准每个参数的更新幅度,依据权重矩阵最大维度的平方根缩放,实现更新一致性。
实证评估表明,Moonlight在中间检查点表现超越传统AdamW训练模型。语言理解任务里,在MMLU基准测试中得分更高;代码生成任务上,性能提升更显著,凸显Muon优化机制对任务表现的积极作用。
Moonlight项目的成功为大型语言模型训练带来新标杆。Muon优化器开源、预训练模型及中间检查点发布,有望推动可扩展优化技术深入研究。
相关链接:github:https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file;HuggingFace:https://huggingface.co/moonshotai/Moonlight-16B-A3B;论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf