谷歌Gemini 2.5 Pro与OpenAI GPT-4o图像生成技术发布

AI快讯1年前 (2025)发布 niko

3月26日凌晨1点，谷歌发布Gemini 2.5思考模型家族首个实验版本Gemini 2.5Pro。约一小时后，OpenAI创始人兼CEO萨姆·阿尔特曼直播发布先进的 GPT-4o图像生成技术，这是 chatgpt生成功能一年多后的首次重大升级。

GPT-4o图像生成可遵循指令生成更准确图像，还能依据知识库或上下文帮用户生成、编辑图像。阿尔特曼直播自拍生成AGI梗图，并发表感想，提到模型生成图像的震撼以及相关风险。

即日起，GPT-4o图像生成作为ChatGPT默认图像生成器向不同类型用户陆续推出，企业和教育用户将很快可访问，开发人员也将能通过APi使用。与DALL·E不同，GPT-4o是原生嵌入ChatGPT的自回归模型，通过在线图像和文本联合分发训练，学习图像与语言关系。不过，该模型生成图像渲染时间较长，通常达一分钟。

OpenAI官方博客展示了不少GPT-4o生图案例，其可生成手写体文字、进行图像编辑、呈现照片级质感，还能利用知识库做海报，可通过自然对话优化图像，分析学习上传图像并与知识、文本相联系。

由于是自回归模型，GPT-4o为生成模型带来新功能和风险，包括图像到图像转换、照片真实感、指令遵循等。目前，该模型在生成图像方面存在局限性，如裁剪紧凑、编辑一致性问题、幻觉等。OpenAI使用多种缓解策略应对安全挑战，加强对未成年人保护。

图像生成模型此前有局限，GPT-4o在图像生成质量上有提升，但仍存在问题，这也是OpenAI后续研发方向。

# AI快讯

文章版权归作者所有，未经允许请勿转载。