大型语言模型面临的内存挑战 :基于Transformer架构的大型语言模型如gemini-Pro1.5、Claude-3等虽取得进展,能处理大量token,但扩展的上下文长度带来诸多问题。随着序列长度增加,解码延迟上升,内存限制成为严重瓶颈,KV缓存大小随上下文长度增长,导致内存饱和,影响长输入序列处理效率。
现有方法的局限性:市场上一些无训练方法依赖获取注意力权重确定键值对重要性,与高效注意力算法不兼容,需部分重新计算注意力矩阵,引入时间和内存开销。现有的压缩算法多在生成答案前压缩提示,无法优化内存受限的生成过程,开发新压缩技术迫在眉睫。
Q-Filters技术的出现 :索邦大学等团队提出Q-Filters,这是强大的无训练KV缓存压缩技术。它利用基于查询的过滤方法评估键值对重要性,不依赖注意力权重,确保与高效注意力算法兼容,无需重新训练或修改架构,能动态保留相关上下文信息,减少内存占用同时维持推理质量。
Q-Filters的卓越表现:Q-Filters在多个评估场景表现出色,优于现有KV缓存压缩方法。在Pile数据集语言建模测试中实现最低困惑度,在LLaMA-3.1-70B模型序列后半部分降低困惑度。在“针在干草堆”任务中保持91%准确率,高压缩率下在长上下文建模基准测试中取得最高分。
技术应用信息 :论文可查看https://arxiv.org/abs/2503.02812,HuggingFace相关链接为https://huggingface.co/collections/nthngdy/q-filters-67a4994dcb302a3d37f3d119。Q-Filters只需在模型训练后进行一次准备步骤,便可用于实际应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。