OpenAI近日有重大动作,将o3-mini的推理思维链公之于众,从发布日起,无论免费用户还是付费用户,都有机会一窥模型的思维过程。这一举措,在AI领域激起千层浪。

评论区中,网友们纷纷表示“让我们谢谢DeepSeek”。在官方展示案例里,o3-mini展现出丰富“内心戏”,甚至还会模仿用户提问使用表情包。面对“为什么今天不是星期五”的问题,o3-mini运用蔡勒公式计算,还对闰年特殊情况做二次检查,最后幽默回应并安慰用户。
那么,作为“同行”的DeepSeek-R1如何看待o3-mini的思维过程呢?此次公开引发了不少质疑,AI声称使用蔡勒公式却未给出计算过程,很多用户怀疑这是事后对AI思维过程的再总结,并非原始数据。OpenAI首席产品官KevinWeil在“回应一切”活动中也曾暗示类似担忧,开发者Mckay Wrigley更指出,经过总结的思维链可能比没有思维链更不利于模型调试。
尽管存在质疑,o3-mini思维链的公开还是让免费用户兴奋不已,大家纷纷展开实测。OpenAI多模态Agent的研究员让o3-mini玩井字棋游戏,o3-mini经过思考给出答案,虽其CoT过程被指有点不靠谱,但最终还是得出结果。

经典测试题“数strawberry里面的‘r’的数量”也被用来考验o3-mini。o3-mini从自然语言训练、Tokenization问题、迭代推理缺失、模式识别依赖等四个角度思考,最终总结出AI大模型在这类精确计数任务上存在困难的原因。
不过,o3-mini并非无往不胜。有网友询问关于私有CoT的问题,o3-mini起初思考有逻辑,但随着追问思维链崩溃,甚至一度借助DeepSeek-R1帮忙,最后无奈表示无法回答。此外,还有网友质疑公开的不是o3-mini原始的CoT,通过生成字符数量对比等证据进行说明。
根据TechCrunch消息,OpenAI发言人确认此次公开的不是原始思维链。原因一是对原始思维链做后处理,可消除不安全内容并简化复杂想法;二是能让非英语用户获得母语的思想链,带来更友好体验,这也解决了此前o3-mini使用中文思考被吐槽的问题。