蚂蚁集团Ling团队发布创新LING大模型,突破低性能硬件训练难题

AI快讯1个月前发布 niko
13 0
AiPPT - 一键生成ppt

Ling团队创新成果:两款大语言模型问世蚂蚁集团的Ling团队于预印版Arxiv平台发布技术论文,介绍了两款新型大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus)。此两款模型设计新颖,能在低性能硬件上实现高效训练,有效降低成本。

模型参数规模与性能表现百灵轻量版参数规模达168亿,激活参数27.5亿;增强版基座模型参数高达2900亿,激活参数288亿。两款模型性能均处行业领先,特别是增强版的3000亿参数MoE模型,在国产GPU低性能设备上训练时,表现与高端英伟达芯片模型不相上下。

突破传统限制的创新训练策略通常,MoE模型训练依赖昂贵高性能GPU,受芯片短缺限制,应用受限。Ling团队提出“不使用高级GPU”扩展模型的目标,创新训练策略涵盖动态参数分配、混合精度调度及升级的训练异常处理机制,有效缩短中断响应时间,优化模型评估流程,压缩验证周期超50%。

实验数据见证成本优势 Ling团队对9万亿个token进行Ling-Plus预训练。实验显示,高性能硬件配置训练1万亿token成本约635万元,采用蚂蚁优化方法后,低规格硬件训练成本降至508万元左右,节省近20%,且性能与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当。

技术成果的深远意义 这一技术成果若广泛应用,将为国产大模型提供经济高效方案,减少对英伟达芯片依赖,为人工智能未来发展开拓新路径。

© 版权声明
Trea - 国内首个原生AI IDE