GPT-4o热潮下:潜在空间与生成模型的两阶段训练新趋势

AI快讯1周前发布 niko
7 0
AiPPT - 一键生成ppt

GPT-4o引发的生成式AI热潮

上个月,GPT-4o的图像生成功能热度飙升,以吉卜力风为代表引发了广泛探讨,生成式AI再次成为网络焦点。而潜在空间作为生成模型的核心驱动力,为图像与视频创作带来了无限可能。知名研究者AndrejKarpathy转发了Google DeepMind研究科学家Sander Dielman的博客文章,探讨生成模型如何借助潜在空间提升生成效率与质量。

潜在空间与生成模型的训练方法

在潜在空间训练生成模型一般分为两个阶段。首先用输入信号训练自编码器,它由编码器和解码器组成,编码器把输入信号映射为潜在表征,解码器再将潜在表征映射回输入域。接着在潜在表征上训练生成模型,使用第一阶段的编码器提取训练数据的潜在表征,主流生成模型多为自回归模型或扩散模型。训练第二阶段,自编码器的解码器虽不参与训练,但在生成模型采样时发挥作用。

生成模型的发展历程

最初,自回归和扩散模型应用于“原始”数字感知信号,如像素与波形。但这种策略扩展性不佳,因为感知信号含大量不可察觉噪声。随着VQ-VAE论文发表,图像自回归模型取得重大进展,通过在自编码器插入矢量量化瓶颈层学习离散表征,减少自回归采样步骤,避免在噪声上浪费模型容量。VQ-VAE2和VQGAN进一步提升图像质量和分辨率,VQGAN成为感知信号生成建模的关键技术。

潜在扩散模型的兴起

2021年下半年,一系列论文探讨将潜在自回归模型与扩散模型结合。Rombach等人的研究奠定了稳定扩散模型的基础。早期商业文生图模型多采用分辨率级联方法,稳定扩散模型出现后,大多转向基于潜在空间的方法。自回归模型和扩散模型训练的损失函数不同,两阶段方法与扩散损失函数互补,能减少内存需求,加快训练和采样速度。

两阶段方法的优势与挑战

两阶段方法能使生成模型高效利用容量,专注于感知相关信号内容,减少模型规模并提升效果。大多数感知信号存在大量感知上不重要的信息,两阶段方法可提取更紧凑的表征。但选择合适的潜在表征需权衡重建质量和可建模性,目前还缺乏可靠的可建模性代理指标。

潜在空间的控制与正则化

控制潜在空间容量的关键参数包括下采样因子、表征通道数和码本大小。合适的总空间冗余(TSR)至关重要,更大的潜在表征可提升重建质量,但可能影响可建模性。多种正则化策略可塑造、梳理和控制潜在表征的容量,如VQGAN的VQ正则化和KL正则化,以及调整重建损失等。

不同模态的潜在变量应用

视觉领域在学习图像潜在特征方面较为成熟,视频和音频领域面临更多挑战。视频需解决时间维度问题,音频则在两阶段方法的应用上缺乏共识。语言虽非感知模态,但两阶段方法也可尝试用于提高大型语言模型的效率,不过语言压缩难度较大。

端到端学习的未来展望

当前感知信号的主流生成建模范式是两阶段方法,虽引入了复杂性,但在训练效率和采样延迟方面有优势。端到端学习可使系统各部分更好协作,但目前输入空间的迭代细化速度慢且成本高。未来随着硬件发展,可能会达到临界点,使单阶段生成模型在经济上更具优势。

© 版权声明
Trea - 国内首个原生AI IDE