【导言】一款名为o3的AI模型智商被测出高达157,考分远超过99%的人类。相应的图解在网上广泛传播,更有观点预测,接近陶哲轩智商水平(225-230)的高级AI不久可能会问世。
o3智商高达157,与爱因斯坦相近?
日前,一张人工智能模型智商的图解在网上被热议。该图解基于编码竞赛Codeforces的评分,清楚展示了只有约0.0075%的人智商能达到o3的水平。换算成数字,即13333人中仅有1人的智商能达到这一水平。而在GPT-4o模型中,IQ达到115的水平的人则较普遍,平均6人里就有1人。从GPT-4o、到o1系再到o3系,智商模型不断飞跃,仅一年内便完成了质的突破,即使最强大的o1 pro智商仅为139,o3仍领先了近20分。
有网友乐观认为,不久的将来,我们的口袋里可能会携带IQ高达157的智能体。同样,也有人认为考虑到陶哲轩的智商约在225-230,未来模型也有望达到这一水平。
o3高智商背后的技术革新
在o3模型公布后,许多人认为这标志着AGI(通用人工智能)的实现。从o1到o3,仅仅用了3个月时间;从o1 pro到o3更是仅仅用了1个月的时间。这表明,智能增长并非止步不前。过去五年,人工智能模型在ARC-AGI领域的表现就是最佳证明。
新模型o3发布当天,OpenAI的研究者Nat McAleese进行了介绍。他指出,o3标志着通用领域强化学习的显著进步。相比于o1作为首个大规模推理模型并通过RL(强化学习)进行训练的情况,o3是在o1基础上进一步放大强化学习后的产物。目前,o3在最具竞争力的编程基准CodeForces上的得分已经超过了2700分,足以媲美国际大师的水平。此表现甚至让人开始对陶哲轩之前关于智能发展速度的预言产生怀疑。
同时,o3在数学基准FrontierMath上的表现令人瞠目结舌。Keras的创始人François Chollet在其转写的报告中解释了o3与传统模型的区别:o3的创新点在于它能在token空间内自我搜索和执行语言程序。在测试时,它将搜索可能的CoT解决方案,并描述解决问题所需的步骤,而对于搜索的处理工作是由评估模型来引导的。这种方式与AlphaZero的蒙特卡洛树搜索类似,本质上是一种深度学习引导的程序搜索方式。
虽然o3的进化速度令人惊讶,但OpenAI的研究者Will depue表示,这仍然不是AGI,前方的路依旧漫长。
o3 ARC-AGI测试的争议
近来,有关o3在ARC-AGI的测试结果在业界内引发讨论。ARC-AGI的建立初衷是找到对人类容易而对AI困难的问题。在该基准测试中,o3在低计算模式下得分为75.7%,高计算模式下得分为87.5%,超过了人类通常的85%表现,由此引来了一些质疑声音——OpenAI是否针对这项测试特别训练过模型?有关“并未特别处理模型”的说法,在奥特曼在直播中的第12天已经做出强调。
对此,不少网友深入调查。名为Knight Lee的网民表示,o3的ARC-AGI成绩实际上是基于微调过的,而非之前的AI那样未经微调。他认为o3受惠于接受了示例测试问题的明确训练。这一观点得到了ARC-AGI设计者François Chollet的支持,后者引述OpenAI的声明称他们在公共训练集的75%数据上训练了o3,却未透露具体细节。基于这些,o3取得的成绩无疑是沾了便宜。
但斯坦曼(Zach Stein-Perlman)反驳说,他们没有针对ARC-AGI微调o3。而最新传出的o3智商157的结果,至少为其性能提供了部分证明。
o4可能是Orion的基础模型?
目前,有消息透露o3的形象可能不止于此。据报道称,代号Orion的模型可能将基于o4展开,而这与华尔街日报此前所说的Orion即为GPT-5的说法相冲突。OpenAI研究者Jason Wei指出,从o1发展到o3,仅用了3个月时间,表明在新模式下进步的速度远超过预训练模式中每1-2年更新一次的速度。相较于预训练,推理模型可以在利用更多的计算资源后弥补预训练速度的放缓。
这也解释了o3在每个高计算任务中的成本之高,根据ARC-AGI基准测试的报告,o3的成本会超过1,000美金。这也解释了为什么OpenAI的博士级别AI助手价格高达每月2,000美金的原因。当OpenAI研究者约翰·霍尔曼(John Hallman)谈及AGI即将来临时称,他们不是在虚画大饼,也不是在推销每月2000美元的付费服务,更不是在为下一轮融资诱骗投资,而是真正即将到来的现实。
目前还不清楚o3能为普通ChatGPT用户带来多少益处。它可能对编程、数学和科学领域的专业人员帮助最大,包括那些研究尖端课题如核聚变能源的研究者。但对于一般用户来说,新模型的性能可能有点过于强大了。
尽管o3表现出色,其他科技巨头也没有袖手旁观。例如,谷歌强势推出了Gemini 2.0 Flash、视频模型Veo 2,并开发了耗资30亿美金雇佣的AI研究员Noam Shazeer所开发的推理模型。注重成本的开发者有不少选择转向谷歌Flash模型。表明推理模型仍将不断进化和迭代,我们可以期待2025年一样兴奋。