浪潮信息推出32专家MoE大模型源2.0-M32, 商业使用免费

AI快讯6个月前发布 niko
14 0 0

【标题】浪潮信息推出32专家MoE大模型源2.0-M32,商业使用免费

开源大模型的领域中迎来了一位引人注目的新角色——源2.0-M32,由浪潮信息提供。这款模型不单提供了自由的开源代码和模型权重,商业使用同样免费并无需授权,为开发者和企业提供了极大的便利。

【内容】

算法与算力的突破

所发布的源2.0-M32模型,不仅具有打破传统稠密模型训练成本限制的高回报投入比,更在性能上全面对标Llama3。源2.0-M32采用了MoE架构,配备了32个专家和高达40B的总参数量,却只需激活两个专家,激活参数量仅3.7B。在多个测评数据集上,源2.0-M32不仅全面对标Llama3,甚至在特定测试如MATH(数学竞赛)和ARC-C(科学推理)上更胜一筹。至于资源消耗,在训练阶段的源2.0-M32,其计算量只有同类稠密模型的9.25%。在推理阶段更是展现出了其突出的效率,每个token的算力消耗仅为Llama3的5.28%,增强了模算效率。

微调和性能优化

在微调方面,通过使用少量样本进行引导,源2.0-M32展现出了强大的少样本学习能力。此外,Llama3-70B所消耗的微调成本为0.05PD,而源2.0-M32的微调消耗仅为0.0026PD,解决了高昂的微调成本问题,让开发者可以快速构建大模型应用。

浪潮信息提供的预训练、微调和推理服务脚本,让开发人员能够高效地完成部署。源2.0-M32的模型部署灵活多变,支持端云部署,支持企业大模型开发平台EPAI,支持开源对话工具,甚至是PC端快速部署。丰富的部署选项,意味着模型资源消耗低至用个人笔记本电脑也能运行。

创新的MoE架构

源2.0-M32模型在算法层面选择了MoE架构,以解决稠密模型训练成本高、算力和数据资源有限的问题。研发团队通过大量实验确定了32专家的设置,并采用了Attention Router门控网络与局部注意力过滤增强机制(LFA),在专家数量与协同效应上下了巨大工夫,实现了比起传统稠密模型更好的模算效率。

数据与算力的考量

在数据训练方面,使用2万亿token的训练量,源2.0-M32在保证训练过程稳定性和高效性的同时,引入了大量代码和多学科数据,进一步提高了模型的性能。通过合成数据工具,填补了中文数学数据的短缺。

源2.0-M32延续了源2.0系列所提出的分布式训练方法,充分考虑了MoE模型的稀疏专家计算,在模型训练的算力效率上取得了显著提升。

开源开放的坚持

浪潮信息在算法、架构上坚持创新。从AI时代的开端,公司就作为专业的算力供应商,和多个算力生态合作伙伴建立了深入的研究和合作关系,实现了对算力资源的高效利用。此外,源系列大模型的使用和迭代为模型能力的进化提供了强有力的支持,而开源活动也对模型的进步提供了极大的帮助。浪潮信息致力于通过基础大模型的研发,降低大模型的使用门槛,推动产业的智能化升级。

资源

请注意,本文章内容根据提供的原始材料进行了重写与增补,并未采用原文的微信公众号等信息。重写后的文字,旨在保持主题内容的完整性,同时去除不必要的信息,并增强SEO元素。

© 版权声明

相关文章

暂无评论

暂无评论...