GPT-4o 凭借生图、改图能力引发关注,然而免费用户面临出图慢、次数受限等问题。对此,我们可将目光投向 Artificial Analysis的文生图大模型竞技场,这里有新的选择。
在该竞技场上,拥有 17B 参数的 HiDream-I1 表现亮眼。它在上线 24 小时内登顶 Artificial Analysis竞技场榜首,成为首个获此成绩的中国自研生成式 AI 模型,且得分与 GPT-4o 接近。
对比发现,HiDream-I1 生成效果不逊色于 GPT-4o,甚至在真实感、细腻度上更胜一筹。与 FLUX1.1 [pro]相比,优势也很明显。更关键的是,HiDream-I1 是开源且允许商用(MIT 协议)的模型。
智象未来作为开源 HiDream-I1 的公司,还将推出 HiDream-E1 模型。此模型支持交互式图像编辑,与 HiDream-I1 配合,可实现类似GPT-4o 图像生成和编辑的效果,填补「开源版 GPT-4o」空白。
为测试 HiDream-I1 是否担得起「开源版 GPT-4o」称号,我们参考 OpenAI 官宣 GPT-4o 新能力时的 prompt进行测试。结果显示,HiDream-I1 在真实感、细腻度上与 GPT-4o接近,在色彩呈现、对客观规律的理解等方面表现出色,且复杂文本理解和遵循能力较强。
在基准测试中,HiDream-I1 的优势得到进一步印证。在 HPSv2.1 上,其生成的各种风格图像更符合人类审美;在 GenEval 和 DPG-Bench 上,指令遵循能力达到最优。
HiDream-I1 的出色表现得益于技术改进。它采用「Sparse Diffusion Transformer(Sparse DiT)」架构设计,融合Sparse Mixture-of-Expert(MoE)技术,提高模型理解文本能力的同时控制运算开销。此外,在扩散模型蒸馏中融入生成对抗学习,提升了图像质量和可扩展性,进而扩展到 HiDream-E1。
HiDream-I1 已站稳国内图像生成第一梯队,国际影响力也逐步显现。Recraft AI 集成该模型,HiDream-I1 在 HuggingFaceTrending 榜单上飙升至第二名。无本地部署需求的用户可在智象未来官方平台 Vivago 体验。
智象未来还将发布多模态 Agent 产品,用户能用对话聊天形式生成图片或视频,并进行编辑。其研发人员透露,HiDream-E1即将开源,相关基准测试数据也将发布,值得期待。