重大突破：Jacobi解码算法助力大语言模型推理速度提升

AI快讯1年前 (2024)更新 niko

在人工智能领域，大语言模型（LLM）的推理速度慢一直是一个棘手的问题。然而，最近的研究成果为这一挑战带来了转机。加州大学圣地亚哥分校和上海交通大学的研究团队发表了他们关于“一致性大语言模型”的研究成果，该研究利用Jacobi解码算法和一致性损失函数，成功地提高了文本生成速度2.4-3.4倍。

突破性的Jacobi解码算法

传统的自回归解码算法在运行时，每一步只能生成一个token，这种基于时间序列的算法对大模型如GPT家族非常不利，尤其在需要处理大量上下文信息时。Jacobi解码算法提供了一种替代方案，它可以在一次迭代中同时生成多个token，通过并行化的方式显著提高推理速度。

在Jacobi算法的框架下，一致性损失函数保证了模型在并行预测多个token时的一致性。这种方法在保持生成质量的同时，显著提升了模型的效率，推理过程中没有引入额外成本，而且模型的迭代过程形成了雅可比轨迹，提高了语言模型理解语言的能力。

实验结果显示，基于CLLM方法的模型在多个下游任务上取得了2-3倍的加速，而且生成效果接近目标模型。这一成果在GSM8K和Spider两个任务中的表现尤为突出，与今年1月刚发布的Medusa 2相比，也有了明显的提升。

这篇论文已被ICML 2024会议接收，同时，相关代码已经在GitHub上开源，模型的多个版本权重可以在HuggingFace仓库上查看。

论文的共同一作是上海交通大学的寇思麒和加州大学圣地亚哥分校的胡岚翔两位博士生，他们的导师是邓志杰教授和张昊教授。张昊教授同时也是Vicuna/vLLM/Chatbot Arena等项目的作者。

相关研究成果还包括了2021年的一篇论文，该论文探讨了如何利用求解非线性方程组来加速神经网络计算，以及张昊组的另一篇论文lookahead decoding。

“一致性模型”的概念由ICML 2023的一篇论文提出，该论文由OpenAI的研究科学家撰写。

通过Jacobi算法并行预测token的过程，CLLM似乎更深层次地理解了语言中的词语搭配，这与人类的语言表达习惯更为接近。

本文由情报综合栏目“新智元”发表，作者新智元。

文章版权归作者所有，未经允许请勿转载。