下一代AI模型o3的突破，引领AGI向更高峰发起冲击

AI快讯2年前 (2024)发布 niko

【新AI模型o3的问世引发业界震动，AGI似乎触手可及】

下一代人工智能模型——o3的诞生备受瞩目！o3在数学测试领域的表现刷新世界纪录，在全球编程水平的排名跃升至前200名，并且在ARC-AGI基准测试中打破了所有AI纪录，接近人类的性能，体现出人工智能在迈向AGI的道路上迈进了一大步。

O3模型终于在众人期待中重磅亮相！
李博士、陈先生、宇先生和ARC Prize基金会主席卡先生为我们揭开了o3的神秘面纱。如同传闻所言，o3成为了这场发布活动的压轴好戏。
王博士表示，之所以跳过o2而直接命名为o3，是对合作伙伴的一种尊重，同时也继承了我们“在取名上总是不太擅长”的传统。
终于宣布的命名为o3——由三个o组成。
要知道，距离上一款o1的发布，也仅仅过去了三个月时间。o3的快速迭代，证明了其发展的步伐似乎并未放缓。
据李博士报道称，o3在低计算量模式下每个任务的费用高达20美元，而在高计算量模式中则需要数千美元。

o3在数学和代码领域的表现超越同类，令世界惊叹
在多项基准测试中，o3再次刷新全球领先成绩，数学、代码、软件工程等领域的表现完全超越了o1模型！
据悉，在AIME 2024数学竞赛的评测中，o3取得了96.7%的准确率，性能提升了13.4%；在博士级科学问答基准GPQA Diamond上，o3的准确率为87.7%，相较于上一代提升了9.7%。在11月由某科研机构发布的难度极高的数学基准Frontier Math上，o3的准确率高达25.2%。陶哲轩教授认为这项测试能够让人工智能为难好几年，但如今这一说法被o3打破。在软件工程SWE-bench Verified基准上，o3的代码性能从o1的48.9%大幅提升22.8%，达到了71.7%。在Codeforces中，o3的Elo得分为2727，相较于o1提升了800多分，这已达到世界顶级水平，相当于排名175位的人类选手。此外，o3-mini也在数学、编码、博士级科学问答等基准测试中取得了新突破，它定义了成本效益推理的新标杆。王博士表示，这两款新模型即将面向研究人员进行测试，并期待尽快推出。

o3-mini展示杰出的“思考模式能力”
o3-mini作为o3系列的新旗舰，给开发者带来了高性价比的AI体验。经过测评，o3-mini展现了其卓越的编程能力。它通过“自适应思考时间”机制能够自动调整推理深度，实现了在代码生成领域的突破。运行速度和成本仅为o1的1/10，o3-mini引入了三档思考级别，可以根据需求调整推理深度，实现快速响应简单任务，对于复杂问题则可以启用更深度的思考模式。具体到Codeforces测试，o3-mini的评分随着推理强度变化而增强，甚至在中等推理强度下已经超越了o1，虽然在高强度推理下o3-mini（高）仍略逊于o3，但在成本和速度方面，o3-mini取得了比o1更好的性能。

对于技术和性能的进一步讨论
研究人员提出，o3模型通过实现token空间内自研语言程序搜索和执行这一核心创新点，使得o3在搜索可能的解决方案时能够由一个基础LLM指导搜索过程，与AlphaZero的蒙特卡洛树搜索有异曲同工之妙。这一创新允许o3在测试时重新组合知识，生成并执行程序，解决了LLM在适应新任务方面的弱点。虽然o3取得了突破性进展，但仍存在限制，例如它只能生成自然语言指令，缺乏直接执行和评估能力，且依赖专家标记的CoT数据，并不能自主获得程序生成和评估能力。尽管如此，o3的表现证明了时序引导搜索的巨大潜力。
o3的主要限制之一是，相比于人类5美元的成本解决任务，o3在低计算模式下的任务成本高达17-20美元。但它的性能的提升和改进无疑为通用人工智能的进一步探索提供了宝贵的经验数据。o3的成功不仅在于其技术的突破，更在于它如何影响了我们对于人工智能未来发展的期望。尽管现在谈论实现AGI似乎仍为时尚早，但o3在ARC-AGI领域的表现已接近人类水平，这种通用性是耗资巨大的，作为一种工具而言，它为人工智能的未来探索指引了方向。在未来，随着成本效益的进一步提高，AI有望在众多领域代替人类完成任务。
【结束】

# AI快讯

文章版权归作者所有，未经允许请勿转载。