DeepSeek-R1与MHA2MLA框架:开启大语言模型高效迁移与低本之路

AI快讯3个月前发布 niko
7 0
AiPPT - 一键生成ppt

DeepSeek-R1引发AI领域关注:人工智能领域,DeepSeek-R1的问世备受瞩目。这一创新成果由复旦大学NLP实验室博士后纪焘团队完成,代表着AI产业的重大进展。其独特的多头潜在注意力网络(MLA)架构,借助低秩压缩技术,大幅降低训练与推理成本,仅为同等性能大模型的十分之一。

MHA2MLA框架应运而生:当下主流大模型多基于标准多头注意力机制(MHA)及其变种,在推理成本上不敌MLA。为此,研究团队提出MHA2MLA框架,旨在实现MHA/GQA架构向MLA的迁移,关键步骤包括部分RoPE保留和键值联合表示低秩近似。

实施过程的关键策略:在MHA2MLA实施中,团队先采用部分RoPE微调策略,分离位置编码,解决MLA与RoPE冲突。接着运用奇异值分解(SVD)技术对键值向量低秩近似,最大化保留预训练知识,减少缓存空间。实验显示,仅用少量预训练数据微调,就能恢复性能损失。

优越的兼容性与能力展现 :MHA2MLA框架与其他高效推理技术结合,如4-bitKV缓存量化,LLaMA2-7B模型的KV缓存大幅减少,性能损失极低。这体现了其在压缩技术上的优越兼容性,保持推理与长上下文处理能力,为大语言模型部署提供新途径。

研究局限与未来方向:不过,研究受硬件条件限制,未覆盖如Llama3等需128K长上下文微调的模型。未来研究将聚焦扩展至更多模型架构,结合参数高效微调策略,降低迁移时的参数更新规模。

© 版权声明
Trea - 国内首个原生AI IDE