ICEdit：低成本实现高质量图像编辑的新方法

在图像编辑领域，传统方式常需大量数据和资源来训练模型。然而，浙大和哈佛团队推出的 ICEdit图像编辑方法打破这一常规，仅用以往工作0.1%的数据量和1%的训练参数，就实现了高质量图像编辑。

基于文本指令的图像编辑一直是热点，但现有模型存在局限。免训练图像编辑操作复杂、效果不稳定；基于训练的方法则需大量数据和资源。ICEdit方法充分利用文生图模型的能力，让其理解编辑指令。

研究人员基于DiT多模态大模型探索图像编辑能力。当使用上下文提示词生成 双联图形式结果时，模型生成的左右图能保持主体ID。将编辑指令融入上下文提示词，模型可理解并生成对应结果，还能注意到编辑区域。与商业大模型对比，ICEdit在人物ID保持等方面表现出色，且更开源、低成本、速度快。

为解决模型不知输入图像样子的问题，团队尝试了两种 免训练图像编辑框架 。一种基于文生图DiT模型，流程较繁琐；另一种基于InpaintingDiT，简洁高效。不过，这两种框架的成片率有待提高。

为提升性能，团队采用 混合专家LoRA微调 方法。借鉴LLM领域的MoE方法，将LoRA设为不同专家训练，训练参数远少于SOTA模型。同时，提出早筛推理时拓展策略（test-time scaling） ，利用最初几步判断初始噪声生成效果，节省推理步数。

测评显示，采用该策略后 VIE-Score测评大幅提升，ICEdit在定性对比中也有更佳编辑效果。此外，ICEdit借助DiT自身能力产生和谐自然的编辑效果，还可作为 image-to-image框架 用于特殊任务，如光照改变、水印去除等。

文章版权归作者所有，未经允许请勿转载。