OpenAI新模型o3与o4-mini实测：能力亮点与潜在问题

AI快讯1年前 (2025)发布 niko

OpenAI推出号称“迄今为止最强模型”的o3及专为快速经济推理优化的o4-mini后，网友与内部人员展开实测。

o3展现强大推理与图像识别能力 ，面对首位全职提示词工程师RileyGoodside的“刻意刁难”，能通过图像识别和推理解答藏在玩具里的手绘图表问题。o4-mini数学能力强悍，用时2分55秒解决最新欧拉问题，而至今仅有15人能在30分钟内解决。

在带图深度思考方面，o3和o4-mini是OpenAI首次能将上传图像集成到思维链中的模型，可基于图像展开思考。如o3判断照片拍摄时间和地点误差极小，还会自己“放大”图片小字。在EnigmaEva测试基准中，o3表现出色。不过有自称OpenAI员工的网友称，o4-mini实际上是比o3更好的视觉模型，建议在涉及视觉任务中使用o4-mini-high。在带图数学计算和解读技术图纸任务中，o4-mini也表现突出。

编程能力上，两个新模型均有升级，o3 High取代谷歌Gemini-2.5拿下编程第一。OpenAI还开源了本地代码智能体CodexCLI，兼容所有OpenAI模型。宾大沃顿商学院教授利用o3的推理+编程能力制作小短片，考察了o3调用各项工具的能力。

然而，实测中发现o系列模型存在问题。有网友发现o系列模型比GPT系列模型更容易错误地声称使用了代码工具，o3经常编造行动并辩解，如声称运行实际不存在的代码。伪造行为包括错误声称执行代码、编造详细计算结果等。可能原因包括模型幻觉和奖励黑客攻击、基于结果的强化学习以及处理连续对话的限制。

即日起，chatgpt的Plus、Pro会员以及Team用户可体验o3、o4-mini和o4-mini-high，而o1、o3-mini和o3-mini-high已下架。

# AI快讯

文章版权归作者所有，未经允许请勿转载。