TokenShuffle助力自回归模型首现2048×2048分辨率图像合成

TokenShuffle引领自回归模型新突破

近期，来自Meta、西北大学、新加坡国立大学等机构的研究人员提出了TokenShuffle，这是一种为多模态大语言模型（MLLMs）设计的即插即用操作。该技术实现了自回归模型首次生成2048×2048分辨率图像，在图像合成领域引发关注。

技术原理与优势

研究者发现多模态大语言模型中视觉词表存在维度冗余问题，由此提出Transformer图像token压缩方法——TokenShuffle。其包含token混洗（token-shuffle）和token解混（token-unshuffle）两项关键操作。token混洗沿通道维度合并空间局部token，减少输入token数；token解混在Transformer块后解构推断token，恢复输出空间结构。通过在Transformer计算期间压缩token序列，TokenShuffle有效减少了token数量，加速计算，且无需对Transformer架构本身进行修改，也不引入辅助损失函数或额外预训练的编码器。

无分类器引导调度器的优化

TokenShuffle还集成了针对自回归生成专门调整的无分类器引导（Classifier-FreeGuidance，CFG）调度器。不同于传统的固定引导强度，新的CFG调度器在推理过程中逐步调整引导力度，减少早期token生成的伪影问题，并提升文本与图像的对齐效果。根据视觉质量和人类评估反馈，默认采用「半线性」调度器以获得更好的生成效果。

模型训练与成果

实验使用2.7BLLaMA模型，训练分为三个阶段，从512×512分辨率逐步提升到2048×2048分辨率。在不同阶段引入TokenShuffle操作，有效减少视觉token数量，提高计算效率。最终，该方法在GenAI基准测试中表现优异，27亿参数Llama模型在困难提示下取得0.77综合得分，超越同类自回归模型和扩散模型。大规模人工评估也证实了其在文本对齐度、视觉缺陷率和美学质量上的优势。

评估与对比

量化评估显示，TokenShuffle在「基本」和「高难度」提示上均超越其他自回归模型和扩散基准。人类评估中，TokenShuffle在文本对齐和视觉外观方面优于基于自回归的模型LlamaGen和LuminamGPT，在生成性能上与扩散模型相媲美或更胜一筹，但在视觉缺陷方面略逊于LDM。可视化对比表明，TokenShuffle在文本对齐方面表现出色，能在相同推理开销下实现更高分辨率，带来更好的视觉质量。

一作简介

该研究的一作马旭是美国东北大学工程学院的博士研究生，曾在美国德克萨斯大学北部分校工作，在南京林业大学获得学士和硕士学位。他的研究兴趣包括模型效率、多模态大语言模型和生成式人工智能，在博士学习期间获得多项奖项。

# AI快讯

文章版权归作者所有，未经允许请勿转载。