o3大模型视觉与演绎推理能力深度测评

AI快讯1年前 (2025)发布 niko

视觉推理竞争激烈，o3表现受关注。如今大模型在视觉推理领域竞争激烈，推理存在多种类型。随着GPT更新至o3并加入图片推理，各模型都在展示相关能力。视觉推理不仅是识别图片元素，还需理解并应用于交互和任务解决中。此前Gemini2.5在视觉推理上表现惊人，o3的识图能力也接受了测评。初期o3识别武康大楼出现失误，但后续恢复。其识图能力在验证码识别等方面有实用价值，类似Manus等产品的自主验证码通过能力，应用潜力较大。不过，传统搜索引擎也曾具备识图功能，验证码等简单任务难以全面体现o3实力。

o3图形推理测试，归纳推理方式初现 。为深入考察o3，采用2021年国家公务员考试模拟考题这类“真 -图形推理”题进行测试。这类题目考察归纳推理能力，即根据已有内容推断下一步。o3在解答过程中推理超六分钟，思维链长达5千字，结合图片推理与代码辅助理解，但最终答错。尽管如此，能看出o3基于图片素材进行推理。这种归纳推理方式具有实用价值，例如可用于AI检测AI生成的图片。o3懂得GAN生成对抗网络和分析EXIF，能总结归纳AI图片特点，其推理分析常转换成代码语言，如在迷宫解题中，o3考虑使用多种工具进行形态学处理并编写python代码解决问题，但在迷宫问题上推理时间长且效果一般，部分题目未能解出甚至放弃。总体而言，o3在归纳推理方面具备多种能力，但准确率和响应速度有待提升。

o3演绎推理挑战，“看工位，猜MBTI”展现实力。除归纳推理，演绎推理要求AI具备综合能力和“发散思维”。为此设计“看工位，猜MBTI”挑战活动。在该活动中，o3对内容部门同事的工位进行分析判断。例如，主编P属性明显，桌面两年未变，o3能发现其不常收拾；社媒编辑桌面系统且技术含量高，触发o3调用代码工具；实习生桌面物品不多但信息丰富，显示屏上的奶茶标触发o3“逐part分解”；硬件及影像编辑工位主人认为o3判错；汽车编辑工位分析中，o3会结合MBTI维度分点给出线索和推理。演绎推理是o3令人兴奋之处，展示了针对不同案例调用不同工具和方式的“agent”思维，这种思维应用在 chatgpt中，使o3成为可玩性高的版本，图片推理潜力值得期待，但需注意避免不当使用。

# AI快讯

文章版权归作者所有，未经允许请勿转载。