Fast-dLLM:提升扩散语言模型推理效率的创新技术

AI快讯6分钟前发布 niko
1 0
AiPPT - 一键生成ppt

Fast-dLLM 这一创新技术由NVIDIA、香港大学和麻省理工学院的研究团队联合推出,旨在提升扩散语言模型的推理效率。与传统自回归模型不同,扩散语言模型通过逐步去除文本噪声来生成文本,一次迭代可生成多个单词,整体效率更高。但在实际应用中,许多开源扩散语言模型的推理速度仍落后于自回归模型。

造成这一现象的主要原因在于缺乏KV缓存机制 支持以及并行解码时生成质量下降。KV缓存机制是自回归模型常用的加速技术,通过存储和复用先前计算的注意力状态,减少冗余计算,从而提高生成速度。不过,由于扩散语言模型采用双向注意力机制,直接应用该机制并非易事。

Fast-dLLM的创新之处在于采用了块级生成方式,将文本生成过程划分为多个块,每个块包含一定数量的标记。通过这种方式,模型在生成一个块之前,可以预计算并存储其他块的KV缓存,避免了冗余计算。

然而,KV缓存机制虽能有效提升推理速度,但并行解码时生成质量往往会下降。这是因为扩散模型在解码时假设条件独立,而标记之间可能存在复杂的依赖关系。为解决这一问题,Fast-dLLM提出了基于置信度并行解码策略。在每个解码步骤中,模型计算每个标记的置信度,并选择置信度高于阈值的标记进行解码,确保在高置信度下进行安全的并行解码,维持生成文本的连贯性和准确性。

为验证Fast-dLLM的性能,研究人员在NVIDIA A100 80GB GPU上对LLaDA模型Dream模型进行了全面评估,涵盖数学推理和代码生成等任务。测试结果显示,在KV缓存机制测试中,块大小为32时,模型吞吐量达到54.4标记/秒,准确率为78.5%。在并行解码测试中,动态阈值策略优于固定标记数基线。总体而言,LLaDA模型在使用KV缓存时加速3.2倍,使用并行解码时加速2.5倍,两者结合加速8.1倍。当生成长度达到1024时,端到端加速高达27.6倍,表明Fast-dLLM在加速的同时能保持稳定的生成质量。

© 版权声明
Trea - 国内首个原生AI IDE