在图像编辑领域,传统方式常需大量数据和资源来训练模型。然而,浙大和哈佛团队推出的 ICEdit图像编辑方法打破这一常规,仅用以往工作0.1%的数据量和1%的训练参数,就实现了高质量图像编辑。
基于文本指令的图像编辑一直是热点,但现有模型存在局限。免训练图像编辑操作复杂、效果不稳定;基于训练的方法则需大量数据和资源。ICEdit方法充分利用文生图模型的能力,让其理解编辑指令。
研究人员基于DiT多模态大模型探索图像编辑能力。当使用上下文提示词生成 双联图形式结果时,模型生成的左右图能保持主体ID。将编辑指令融入上下文提示词,模型可理解并生成对应结果,还能注意到编辑区域。与商业大模型对比,ICEdit在人物ID保持等方面表现出色,且更开源、低成本、速度快。
为解决模型不知输入图像样子的问题,团队尝试了两种 免训练图像编辑框架 。一种基于文生图DiT模型,流程较繁琐;另一种基于InpaintingDiT,简洁高效。不过,这两种框架的成片率有待提高。
为提升性能,团队采用 混合专家LoRA微调 方法。借鉴LLM领域的MoE方法,将LoRA设为不同专家训练,训练参数远少于SOTA模型。同时,提出早筛推理时拓展策略(test-time scaling) ,利用最初几步判断初始噪声生成效果,节省推理步数。
测评显示,采用该策略后 VIE-Score测评大幅提升,ICEdit在定性对比中也有更佳编辑效果。此外,ICEdit借助DiT自身能力产生和谐自然的编辑效果,还可作为 image-to-image框架 用于特殊任务,如光照改变、水印去除等。
© 版权声明
文章版权归作者所有,未经允许请勿转载。