BD3-LMs:融合自回归与扩散模型优势的创新语言模型

AI快讯2个月前发布 niko
6 0
AiPPT - 一键生成ppt

突破传统:块离散去噪扩散语言模型的崛起

在语言模型的发展进程中,传统离散扩散模型面临着生成长度受限、推理效率低以及生成质量不高等难题。为突破这些瓶颈,康奈尔科技校区与斯坦福大学的研究人员提出了创新的块离散去噪扩散语言模型(BD3-LMs)。

传统模型的局限与BD3-LMs的诞生

扩散模型在图像、视频生成及离散数据生成任务中表现出潜力,但现有离散扩散模型存在明显局限。多数只能生成固定长度向量,推理效率低且生成质量落后于自回归方法。BD3-LMs应运而生,介于离散扩散与自回归模型之间,在离散随机变量块上定义自回归概率分布。

BD3-LMs的技术核心与创新

BD3-LMs结合自回归模型在生成质量与灵活长度生成方面的优势,以及扩散模型快速并行生成的优点。提出新建模框架,将token分组成块,块内执行扩散操作,以自回归方式处理块,似然函数可分解。同时,研究人员开发高效训练方法,仅需两次正向传播,采样时可缓存键值,使用任意扩散采样方法。

解决关键难题:降低梯度方差

开发高效BD3-LMs面临计算训练目标算法及梯度方差大等难题。研究人员推导梯度方差估计器,提出定制噪声过程,采用“限制性”遮蔽率,自适应学习遮蔽率,有效缩小困惑度差距。

实验验证:BD3-LMs的卓越性能

实验显示,BD3-LMs在扩散模型中达到先进预测准确性,能平衡扩散与自回归模型似然性。可生成任意长度序列,在生成效率和质量上优于其他扩散模型,为语言模型发展带来新突破。

© 版权声明
Trea - 国内首个原生AI IDE