Fast-dLLM：提升扩散语言模型推理效率的创新技术

Fast-dLLM 这一创新技术由NVIDIA、香港大学和麻省理工学院的研究团队联合推出，旨在提升扩散语言模型的推理效率。与传统自回归模型不同，扩散语言模型通过逐步去除文本噪声来生成文本，一次迭代可生成多个单词，整体效率更高。但在实际应用中，许多开源扩散语言模型的推理速度仍落后于自回归模型。

造成这一现象的主要原因在于缺乏KV缓存机制 支持以及并行解码时生成质量下降。KV缓存机制是自回归模型常用的加速技术，通过存储和复用先前计算的注意力状态，减少冗余计算，从而提高生成速度。不过，由于扩散语言模型采用双向注意力机制，直接应用该机制并非易事。

Fast-dLLM的创新之处在于采用了块级生成方式，将文本生成过程划分为多个块，每个块包含一定数量的标记。通过这种方式，模型在生成一个块之前，可以预计算并存储其他块的KV缓存，避免了冗余计算。

然而，KV缓存机制虽能有效提升推理速度，但并行解码时生成质量往往会下降。这是因为扩散模型在解码时假设条件独立，而标记之间可能存在复杂的依赖关系。为解决这一问题，Fast-dLLM提出了基于置信度并行解码策略。在每个解码步骤中，模型计算每个标记的置信度，并选择置信度高于阈值的标记进行解码，确保在高置信度下进行安全的并行解码，维持生成文本的连贯性和准确性。

为验证Fast-dLLM的性能，研究人员在NVIDIA A100 80GB GPU上对LLaDA模型 和Dream模型进行了全面评估，涵盖数学推理和代码生成等任务。测试结果显示，在KV缓存机制测试中，块大小为32时，模型吞吐量达到54.4标记/秒，准确率为78.5%。在并行解码测试中，动态阈值策略优于固定标记数基线。总体而言，LLaDA模型在使用KV缓存时加速3.2倍，使用并行解码时加速2.5倍，两者结合加速8.1倍。当生成长度达到1024时，端到端加速高达27.6倍，表明Fast-dLLM在加速的同时能保持稳定的生成质量。

# AI快讯

文章版权归作者所有，未经允许请勿转载。