OmniGen2发布:创新架构与反思机制引领图像生成新变革

AI快讯2天前发布 niko
6 0
AiPPT - 一键生成ppt

OmniGen2是智源研究院发布的国产开源统一图像生成模型2.0版本,一经上线便在开源社区引发广泛讨论。发布一周,GitHub星标突破2000,X上相关话题浏览量达数十万。

  • 科研体验版已开放,可抢先尝试其特色能力。官方承诺,OmniGen2 的模型权重、训练代码及训练数据将全面开源,为社区开发者提供优化与扩展的基础。
  • OmniGen2 玩法简单,输入提示词就能解锁丰富能力。它支持基于自然语言指令的图像编辑,能进行物体增删、颜色调整等操作;可实现多模态上下文参考的图像生成,虽更擅长保持物体相似度,但在人脸相似度方面有待提升;还能生成任意比例的图片。
  • 技术上,OmniGen2 采用分离式架构解耦文本和图像,运用ViT和VAE的双编码器策略,提高图像一致性的同时保证文字生成能力。它重构了数据生成流程,解决基础数据和评估方面的难题。此外,还探索了将反思能力整合到多模态生成模型中的策略,构建了面对图像生成的反思数据。
  • 在基准测试方面,OmniGen2 在已有基准上取得不错结果。为解决图片上下文参考生成任务缺乏完善公共基准的问题,团队引入了OmniContext基准 ,包含8个任务类别。OmniGen2 作为首个在该基准上接受评估的模型,总体得分7.18,超越其他领先开源模型。
  • OmniGen2 依托FlagScale框架开展推理部署优化工作,通过重构推理链路和融合缓存加速策略,实现32%的推理效率提升。团队将持续推进软硬协同优化,构建高效推理部署能力体系。
© 版权声明
Trea - 国内首个原生AI IDE