OpenAI发布GPT-4o图像生成新功能，亮点与挑战并存

AI快讯1年前 (2025)发布 niko

OpenAI在 GPT-4o模型中集成先进图像生成器 。OpenAI宣布在GPT-4o模型中集成了迄今为止最先进的图像生成器，OpenAI CEOSam Altman对其称赞有加。

GPT-4o图像生成功能亮点：能够精确渲染文本内容，支持多模态输入输出（文本、图像、音频），能理解复杂指令并结合上下文，能创建具有真实感的第一人称视角图像，还能处理上传图片进行编辑或风格转换。

多轮图像生成与元素一致性 ：该模型支持多轮图像生成，聊天中可优化图像，确保角色等元素在多次迭代中保持一致，还能分析用户上传图像并指导后续生成。

功能开放情况：新功能已向Plus、Pro、Team和免费用户开放，Enterprise和Edu用户即将获得访问权限，开发者几周后也能通过APi使用。

应用案例展示：通过多个案例展示了其强大能力，如将合影改成动漫风、创建漫画页面、制作宠物交易卡片、设计纪念币等，还能将抽象科学概念可视化，有望利好教育领域。

安全措施与短板：所有生成图像都带有C2PA元数据标识，同时构建内部搜索工具验证内容来源。不过新功能存在偶尔裁剪不恰当、低上下文提示下可能产生幻觉等短板，OpenAI表示会逐步优化。

Google发布新模型 ：Google于今日凌晨也发布了强大的AI模型gemini 2.5 Pro Experimental，在多个基准测试中领先。

巨头竞争激烈 ：OpenAI新模型发布或为回击Google此前发布的模型，AI巨头们的竞争只会愈发激烈。

文章版权归作者所有，未经允许请勿转载。