ARINAR模型:双层自回归逐特征生成,提升图像生成质量与速度

AI快讯1个月前发布 niko
8 0
AiPPT - 一键生成ppt

图像生成新突破:ARINAR模型问世

在图像生成领域,澳大利亚国立大学团队带来了全新的ARINAR模型。这一模型在思想上与何凯明团队的分形生成模型有相似之处,但在性能和速度上实现了显著提升。

设计动机:突破传统自回归模型局限

现有的自回归图像生成模型在建模高维token复杂分布时面临挑战。传统的逐token生成方式,无论是离散token生成还是连续token生成,都存在局限性。离散化会引入量化误差,连续token生成则面临拟合复杂分布困难或生成速度慢的问题。因此,研究人员提出逐特征生成的新思路。

方法设计:创新的双层自回归结构

ARINAR模型采用双层自回归结构。外层自回归层负责生成token的条件向量,内层自回归层基于此逐特征生成下一个token。这种结构让内层专注单个特征生成,简化了预测token分布的难度。

与FractalMAR的关系:潜在空间中的升级

FractalMAR是多层自回归模型,在像素空间逐像素生成图像。而ARINAR在特征空间逐特征生成,通过自编码器转换图像为连续特征表示,性能和速度更优,可看作FractalMAR在潜在空间的版本。

实验结果:质量与速度双提升

Imagenet 256×256图像生成任务测试中,ARINAR-B模型在生成质量上与先进的MAR-B模型相当,显著超过FractalMAR;生成速度更是大幅领先,仅需11.57秒。

总结与不足:潜力巨大但资源受限

ARINAR简化了自回归模型复杂度,提高了生成速度和质量。不过,因计算资源限制,仅训练了基础模型,未来研究人员寻求更多资源以挖掘其更大潜力。

© 版权声明
Trea - 国内首个原生AI IDE