谷歌Gemini 2.5 Pro与OpenAI GPT-4o图像生成技术发布

AI快讯2个月前发布 niko
25 0
AiPPT - 一键生成ppt

3月26日凌晨1点,谷歌发布Gemini 2.5思考模型家族首个实验版本Gemini 2.5Pro。约一小时后,OpenAI创始人兼CEO萨姆·阿尔特曼直播发布先进的GPT-4o图像生成技术,这是chatgpt生成功能一年多后的首次重大升级。

GPT-4o图像生成可遵循指令生成更准确图像,还能依据知识库或上下文帮用户生成、编辑图像。阿尔特曼直播自拍生成AGI梗图,并发表感想,提到模型生成图像的震撼以及相关风险。

即日起,GPT-4o图像生成作为ChatGPT默认图像生成器向不同类型用户陆续推出,企业和教育用户将很快可访问,开发人员也将能通过APi使用。与DALL·E不同,GPT-4o是原生嵌入ChatGPT的自回归模型,通过在线图像和文本联合分发训练,学习图像与语言关系。不过,该模型生成图像渲染时间较长,通常达一分钟。

OpenAI官方博客展示了不少GPT-4o生图案例,其可生成手写体文字、进行图像编辑、呈现照片级质感,还能利用知识库做海报,可通过自然对话优化图像,分析学习上传图像并与知识、文本相联系。

由于是自回归模型,GPT-4o为生成模型带来新功能和风险,包括图像到图像转换、照片真实感、指令遵循等。目前,该模型在生成图像方面存在局限性,如裁剪紧凑、编辑一致性问题、幻觉等。OpenAI使用多种缓解策略应对安全挑战,加强对未成年人保护。

图像生成模型此前有局限,GPT-4o在图像生成质量上有提升,但仍存在问题,这也是OpenAI后续研发方向。

© 版权声明
Trea - 国内首个原生AI IDE