浪潮信息推出32专家MoE大模型源2.0-M32，商业使用免费

【标题】浪潮信息推出32专家MoE大模型源2.0-M32，商业使用免费

开源大模型的领域中迎来了一位引人注目的新角色——源2.0-M32，由浪潮信息提供。这款模型不单提供了自由的开源代码和模型权重，商业使用同样免费并无需授权，为开发者和企业提供了极大的便利。

【内容】

算法与算力的突破

所发布的源2.0-M32模型，不仅具有打破传统稠密模型训练成本限制的高回报投入比，更在性能上全面对标Llama3。源2.0-M32采用了MoE架构，配备了32个专家和高达40B的总参数量，却只需激活两个专家，激活参数量仅3.7B。在多个测评数据集上，源2.0-M32不仅全面对标Llama3，甚至在特定测试如MATH（数学竞赛）和ARC-C（科学推理）上更胜一筹。至于资源消耗，在训练阶段的源2.0-M32，其计算量只有同类稠密模型的9.25%。在推理阶段更是展现出了其突出的效率，每个token的算力消耗仅为Llama3的5.28%，增强了模算效率。

微调和性能优化

在微调方面，通过使用少量样本进行引导，源2.0-M32展现出了强大的少样本学习能力。此外，Llama3-70B所消耗的微调成本为0.05PD，而源2.0-M32的微调消耗仅为0.0026PD，解决了高昂的微调成本问题，让开发者可以快速构建大模型应用。

浪潮信息提供的预训练、微调和推理服务脚本，让开发人员能够高效地完成部署。源2.0-M32的模型部署灵活多变，支持端云部署，支持企业大模型开发平台EPAI，支持开源对话工具，甚至是PC端快速部署。丰富的部署选项，意味着模型资源消耗低至用个人笔记本电脑也能运行。

创新的MoE架构

源2.0-M32模型在算法层面选择了MoE架构，以解决稠密模型训练成本高、算力和数据资源有限的问题。研发团队通过大量实验确定了32专家的设置，并采用了Attention Router门控网络与局部注意力过滤增强机制（LFA），在专家数量与协同效应上下了巨大工夫，实现了比起传统稠密模型更好的模算效率。

数据与算力的考量

在数据训练方面，使用2万亿token的训练量，源2.0-M32在保证训练过程稳定性和高效性的同时，引入了大量代码和多学科数据，进一步提高了模型的性能。通过合成数据工具，填补了中文数学数据的短缺。

源2.0-M32延续了源2.0系列所提出的分布式训练方法，充分考虑了MoE模型的稀疏专家计算，在模型训练的算力效率上取得了显著提升。

开源开放的坚持

浪潮信息在算法、架构上坚持创新。从AI时代的开端，公司就作为专业的算力供应商，和多个算力生态合作伙伴建立了深入的研究和合作关系，实现了对算力资源的高效利用。此外，源系列大模型的使用和迭代为模型能力的进化提供了强有力的支持，而开源活动也对模型的进步提供了极大的帮助。浪潮信息致力于通过基础大模型的研发，降低大模型的使用门槛，推动产业的智能化升级。