Q-Filters：优化大型语言模型KV缓存的创新压缩技术

大型语言模型面临的内存挑战 ：基于Transformer架构的大型语言模型如gemini-Pro1.5、Claude-3等虽取得进展，能处理大量token，但扩展的上下文长度带来诸多问题。随着序列长度增加，解码延迟上升，内存限制成为严重瓶颈，KV缓存大小随上下文长度增长，导致内存饱和，影响长输入序列处理效率。

现有方法的局限性：市场上一些无训练方法依赖获取注意力权重确定键值对重要性，与高效注意力算法不兼容，需部分重新计算注意力矩阵，引入时间和内存开销。现有的压缩算法多在生成答案前压缩提示，无法优化内存受限的生成过程，开发新压缩技术迫在眉睫。

Q-Filters技术的出现 ：索邦大学等团队提出Q-Filters，这是强大的无训练KV缓存压缩技术。它利用基于查询的过滤方法评估键值对重要性，不依赖注意力权重，确保与高效注意力算法兼容，无需重新训练或修改架构，能动态保留相关上下文信息，减少内存占用同时维持推理质量。

Q-Filters的卓越表现：Q-Filters在多个评估场景表现出色，优于现有KV缓存压缩方法。在Pile数据集语言建模测试中实现最低困惑度，在LLaMA-3.1-70B模型序列后半部分降低困惑度。在“针在干草堆”任务中保持91%准确率，高压缩率下在长上下文建模基准测试中取得最高分。

技术应用信息 ：论文可查看https://arxiv.org/abs/2503.02812，HuggingFace相关链接为https://huggingface.co/collections/nthngdy/q-filters-67a4994dcb302a3d37f3d119。Q-Filters只需在模型训练后进行一次准备步骤，便可用于实际应用。

# AI快讯

文章版权归作者所有，未经允许请勿转载。