TokenShuffle助力自回归模型首现2048×2048分辨率图像合成

AI快讯1个月前发布 niko
10 0
AiPPT - 一键生成ppt

TokenShuffle引领自回归模型新突破

近期,来自Meta、西北大学、新加坡国立大学等机构的研究人员提出了TokenShuffle,这是一种为多模态大语言模型(MLLMs)设计的即插即用操作。该技术实现了自回归模型首次生成2048×2048分辨率图像,在图像合成领域引发关注。

技术原理与优势

研究者发现多模态大语言模型中视觉词表存在维度冗余问题,由此提出Transformer图像token压缩方法——TokenShuffle。其包含token混洗(token-shuffle)和token解混(token-unshuffle)两项关键操作。token混洗沿通道维度合并空间局部token,减少输入token数;token解混在Transformer块后解构推断token,恢复输出空间结构。通过在Transformer计算期间压缩token序列,TokenShuffle有效减少了token数量,加速计算,且无需对Transformer架构本身进行修改,也不引入辅助损失函数或额外预训练的编码器。

无分类器引导调度器的优化

TokenShuffle还集成了针对自回归生成专门调整的无分类器引导(Classifier-FreeGuidance,CFG)调度器。不同于传统的固定引导强度,新的CFG调度器在推理过程中逐步调整引导力度,减少早期token生成的伪影问题,并提升文本与图像的对齐效果。根据视觉质量和人类评估反馈,默认采用「半线性」调度器以获得更好的生成效果。

模型训练与成果

实验使用2.7BLLaMA模型,训练分为三个阶段,从512×512分辨率逐步提升到2048×2048分辨率。在不同阶段引入TokenShuffle操作,有效减少视觉token数量,提高计算效率。最终,该方法在GenAI基准测试中表现优异,27亿参数Llama模型在困难提示下取得0.77综合得分,超越同类自回归模型和扩散模型。大规模人工评估也证实了其在文本对齐度、视觉缺陷率和美学质量上的优势。

评估与对比

量化评估显示,TokenShuffle在「基本」和「高难度」提示上均超越其他自回归模型和扩散基准。人类评估中,TokenShuffle在文本对齐和视觉外观方面优于基于自回归的模型LlamaGen和LuminamGPT,在生成性能上与扩散模型相媲美或更胜一筹,但在视觉缺陷方面略逊于LDM。可视化对比表明,TokenShuffle在文本对齐方面表现出色,能在相同推理开销下实现更高分辨率,带来更好的视觉质量。

一作简介

该研究的一作马旭是美国东北大学工程学院的博士研究生,曾在美国德克萨斯大学北部分校工作,在南京林业大学获得学士和硕士学位。他的研究兴趣包括模型效率、多模态大语言模型和生成式人工智能,在博士学习期间获得多项奖项。

© 版权声明
Trea - 国内首个原生AI IDE