OpenAI与Google齐发新模型，GPT-4o图像生成与Gemini2.5Pro Experimental亮点多

AI快讯1年前 (2025)发布 niko

科技巨头在AI领域的新动作不断，OpenAI宣布在 GPT-4o模型中整合了先进的图像生成器。OpenAI首席执行官萨姆・奥特曼在社交媒体分享看到模型生成图像时的震撼，对用户创造力满怀期待。

GPT-4o图像生成功能亮点突出。它能精准渲染文本，呈现高质量图像；支持文本、图像和音频等多种输入输出形式；还能理解复杂指令结合上下文，创作出具真实感的第一人称视角图像。

独特的自回归模型与强大处理能力。GPT-4o采用自回归模型，原生嵌入 chatgpt。相比之前的DALL・E及其他竞争对手，它能处理10至20个不同物体的复杂指令，能力更胜一筹。

用户使用便捷且效果出色。用户简单描述需求，如指定纵横比等，模型就能快速生成图像。复杂细节渲染虽需时间，但效果值得等待。发布会上多个案例展示了其优秀表现。

重视安全性但仍有不足 。OpenAI重视图像生成功能的安全性，生成图像带有C2PA元数据标识。不过，在裁剪等方面还存在问题，未来将持续优化。

Google的新模型崭露头角 。同一时间，Google发布Gemini2.5ProExperimental，在推理和编程能力上有显著提升。AI领域竞争激烈，巨头纷纷发力。

文章版权归作者所有，未经允许请勿转载。