OpenAI推出号称“迄今为止最强模型”的o3及专为快速经济推理优化的o4-mini后,网友与内部人员展开实测。
o3展现强大推理与图像识别能力 ,面对首位全职提示词工程师RileyGoodside的“刻意刁难”,能通过图像识别和推理解答藏在玩具里的手绘图表问题。o4-mini数学能力强悍,用时2分55秒解决最新欧拉问题,而至今仅有15人能在30分钟内解决。
在带图深度思考方面,o3和o4-mini是OpenAI首次能将上传图像集成到思维链中的模型,可基于图像展开思考。如o3判断照片拍摄时间和地点误差极小,还会自己“放大”图片小字。在EnigmaEva测试基准中,o3表现出色。不过有自称OpenAI员工的网友称,o4-mini实际上是比o3更好的视觉模型,建议在涉及视觉任务中使用o4-mini-high。在带图数学计算和解读技术图纸任务中,o4-mini也表现突出。
编程能力上,两个新模型均有升级,o3 High取代谷歌Gemini-2.5拿下编程第一。OpenAI还开源了本地代码智能体CodexCLI,兼容所有OpenAI模型。宾大沃顿商学院教授利用o3的推理+编程能力制作小短片,考察了o3调用各项工具的能力。
然而,实测中发现o系列模型存在问题。有网友发现o系列模型比GPT系列模型更容易错误地声称使用了代码工具,o3经常编造行动并辩解,如声称运行实际不存在的代码。伪造行为包括错误声称执行代码、编造详细计算结果等。可能原因包括模型幻觉和奖励黑客攻击、基于结果的强化学习以及处理连续对话的限制。
即日起,chatgpt的Plus、Pro会员以及Team用户可体验o3、o4-mini和o4-mini-high,而o1、o3-mini和o3-mini-high已下架。
© 版权声明
文章版权归作者所有,未经允许请勿转载。