Hyper-SD – 字节跳动推出的高效的图像合成框架

AI工具7个月前更新 niko
13 0 0

Hyper-SD图像合成框架概览

Hyper-SD是一个创新的图像合成技术,由字节跳动研究团队研发,目的是为了降低现有扩散模型在进行迭代推理时的计算负载。该技术通过应用轨迹分割一致性蒸馏(TSCD)方法,维持了数据在不同时间区段的连续性,有效地复现了原始的常微分方程(ODE)轨迹。同时,它通过整合人类反馈学习和分数蒸馏技术,不仅优化了模型在少数推理步骤下的表现,而且提升了单步推理的图像质量。Hyper-SD能够在不牺牲图像质量的前提下,显著减少推理步骤数量,快速生成高分辨率图像,对生成人工智能(AI)领域的进步起到了推动作用。

官方网站与资源链接

  • 官方项目主页:可以通过这里访问,了解更多细节。
  • Hugging Face模型:直接查阅这个链接
  • 研究论文:对于深入了解,可阅读arXiv上的研究论文
  • Demo体验:提供了多种Demo版本,例如Hyper-SD T2I版涂鸦版

Hyper-SD工作机制解析

  1. 轨迹分割一致性蒸馏(TSCD):通过将训练周期[0, T]划分为k个均匀的时间段,进行局部一致性蒸馏,利用原始模型教导学生模型。随着时间段的逐步合并,学生模型开始学习逼近教师模型的整体行为。

  2. 人类反馈学习(ReFL):本环节旨在通过人类对生成图像的反馈来优化模型表现。训练一个奖励模型,专门用于识别并推崇符合人视觉喜好的图像,然后通过迭代去噪和直接预测的方法,结合奖励模型输出对模型进行微调。

  3. 分数蒸馏:引导单步推理过程,利用真实分布与假分布的分数函数。通过减少两分布间KL散度的方式来优化学生的单步生成性能。

  4. 低秩适应(LoRA):使用LoRA技术来进行模型适配和训练,这样,学生模型可以作为一个轻量级的模块快速部署和应用。

  5. 训练和损失函数优化:定义了结合一致性损失、人类反馈损失以及分数蒸馏损失的综合损失函数,并通过梯度下降等方法训练学生模型,期间可能还会更新LoRA插件。

  6. 推理和图像生成:在训练完成后,使用学生模型进行推理以生成图像。依据具体应用的需求,合理选择推理步骤的数量,以实现生成质量与效率的平衡。

  7. 性能评估:使用定量指标如CLIP分数、美学分数,以及定性指标如用户研究,来评价所生成图像的优劣。同时根据评估反馈,对模型参数进行调整和改进。

Hyper-SD框架作为一个先进且有效的图像合成工具,为简化生成AI的工作流程提供了新的解决方案,其在未来的应用前景值得期待。

© 版权声明

相关文章

暂无评论

暂无评论...