Hyper-SD – 字节跳动推出的高效的图像合成框架

AI工具1年前 (2024)更新 niko

Hyper-SD图像合成框架概览

Hyper-SD是一个创新的图像合成技术，由字节跳动研究团队研发，目的是为了降低现有扩散模型在进行迭代推理时的计算负载。该技术通过应用轨迹分割一致性蒸馏（TSCD）方法，维持了数据在不同时间区段的连续性，有效地复现了原始的常微分方程（ODE）轨迹。同时，它通过整合人类反馈学习和分数蒸馏技术，不仅优化了模型在少数推理步骤下的表现，而且提升了单步推理的图像质量。Hyper-SD能够在不牺牲图像质量的前提下，显著减少推理步骤数量，快速生成高分辨率图像，对生成人工智能（AI）领域的进步起到了推动作用。

官方网站与资源链接

官方项目主页：可以通过这里访问，了解更多细节。
Hugging Face模型：直接查阅这个链接。
研究论文：对于深入了解，可阅读arXiv上的研究论文。
Demo体验：提供了多种Demo版本，例如Hyper-SD T2I版和涂鸦版。

Hyper-SD工作机制解析

轨迹分割一致性蒸馏（TSCD）：通过将训练周期[0, T]划分为k个均匀的时间段，进行局部一致性蒸馏，利用原始模型教导学生模型。随着时间段的逐步合并，学生模型开始学习逼近教师模型的整体行为。
人类反馈学习（ReFL）：本环节旨在通过人类对生成图像的反馈来优化模型表现。训练一个奖励模型，专门用于识别并推崇符合人视觉喜好的图像，然后通过迭代去噪和直接预测的方法，结合奖励模型输出对模型进行微调。
分数蒸馏：引导单步推理过程，利用真实分布与假分布的分数函数。通过减少两分布间KL散度的方式来优化学生的单步生成性能。
低秩适应（LoRA）：使用LoRA技术来进行模型适配和训练，这样，学生模型可以作为一个轻量级的模块快速部署和应用。
训练和损失函数优化：定义了结合一致性损失、人类反馈损失以及分数蒸馏损失的综合损失函数，并通过梯度下降等方法训练学生模型，期间可能还会更新LoRA插件。
推理和图像生成：在训练完成后，使用学生模型进行推理以生成图像。依据具体应用的需求，合理选择推理步骤的数量，以实现生成质量与效率的平衡。
性能评估：使用定量指标如CLIP分数、美学分数，以及定性指标如用户研究，来评价所生成图像的优劣。同时根据评估反馈，对模型参数进行调整和改进。