OpenAI此次公开o3-mini的推理思维链,引发行业广泛关注。从今日起,无论免费还是付费用户,都有机会一窥模型的思维过程。

在官方展示案例里,o3-mini表现出丰富“内心戏”。面对用户“为什么今天不是星期五”的提问,它运用蔡勒公式计算,还对闰年特殊情况二次检查,最后幽默作答。这一过程展现了o3-mini的思维能力,也让用户看到其推理过程的细节。
作为“同行”,DeepSeek-R1对o3-mini思维过程的评价备受关注。在案例中,AI声称使用蔡勒公式却未给出计算过程,引发众多用户怀疑这是事后总结而非原始数据。OpenAI首席产品官KevinWeil曾暗示,展示完整思维链会有顾虑,需平衡。开发者Mckay Wrigley也认为,总结的思维链可能带来负面效果。

尽管存在争议,公开后用户积极体验o3-mini的CoT。OpenAI多模态Agent研究员让o3-mini玩井字棋游戏,o3-mini经过思考给出答案。员工直言其CoT过程虽不太靠谱,但最终得出正确结果。
经典测试题“数strawberry里面‘r’的数量”,o3-mini认真思考并从多个角度分析AI大模型在此类任务中面临挑战的原因,如训练方式、Tokenization问题等。这体现了o3-mini分析问题的能力。
然而,o3-mini并非无懈可击。有网友询问私有CoT相关问题,其思维链最终崩溃。同时,不少网友质疑公开的不是原始CoT,如展示速度慢、不同版本回答长度差异大等。
根据TechCrunch消息,OpenAI发言人证实此次公开的非原始思维链。原因一是对原始思维链做后处理,可消除不安全内容、简化复杂想法;二是让非英语用户获得母语思想链,提升体验。这也解释了近期o3-mini使用中文思考问题为何不再出现。
© 版权声明
文章版权归作者所有,未经允许请勿转载。