o3大模型视觉与演绎推理能力深度测评

AI快讯6分钟前发布 niko
0 0
AiPPT - 一键生成ppt

视觉推理竞争激烈,o3表现受关注。如今大模型在视觉推理领域竞争激烈,推理存在多种类型。随着GPT更新至o3并加入图片推理,各模型都在展示相关能力。视觉推理不仅是识别图片元素,还需理解并应用于交互和任务解决中。此前Gemini2.5在视觉推理上表现惊人,o3的识图能力也接受了测评。初期o3识别武康大楼出现失误,但后续恢复。其识图能力在验证码识别等方面有实用价值,类似Manus等产品的自主验证码通过能力,应用潜力较大。不过,传统搜索引擎也曾具备识图功能,验证码等简单任务难以全面体现o3实力。

o3图形推理测试,归纳推理方式初现 。为深入考察o3,采用2021年国家公务员考试模拟考题这类“真 -图形推理”题进行测试。这类题目考察归纳推理能力,即根据已有内容推断下一步。o3在解答过程中推理超六分钟,思维链长达5千字,结合图片推理与代码辅助理解,但最终答错。尽管如此,能看出o3基于图片素材进行推理。这种归纳推理方式具有实用价值,例如可用于AI检测AI生成的图片。o3懂得GAN生成对抗网络和分析EXIF,能总结归纳AI图片特点,其推理分析常转换成代码语言,如在迷宫解题中,o3考虑使用多种工具进行形态学处理并编写python代码解决问题,但在迷宫问题上推理时间长且效果一般,部分题目未能解出甚至放弃。总体而言,o3在归纳推理方面具备多种能力,但准确率和响应速度有待提升。

o3演绎推理挑战,“看工位,猜MBTI”展现实力。除归纳推理,演绎推理要求AI具备综合能力和“发散思维”。为此设计“看工位,猜MBTI”挑战活动。在该活动中,o3对内容部门同事的工位进行分析判断。例如,主编P属性明显,桌面两年未变,o3能发现其不常收拾;社媒编辑桌面系统且技术含量高,触发o3调用代码工具;实习生桌面物品不多但信息丰富,显示屏上的奶茶标触发o3“逐part分解”;硬件及影像编辑工位主人认为o3判错;汽车编辑工位分析中,o3会结合MBTI维度分点给出线索和推理。演绎推理是o3令人兴奋之处,展示了针对不同案例调用不同工具和方式的“agent”思维,这种思维应用在chatgpt中,使o3成为可玩性高的版本,图片推理潜力值得期待,但需注意避免不当使用。

© 版权声明
Trea - 国内首个原生AI IDE