ARC-AGI-2测试：衡量AI通用智能的新标尺

AI快讯1年前 (2025)发布 niko

ARC-AGI-2测试全新亮相 ：近日，由著名AI研究者François Chollet共同创立的ArcPrize基金会，发布了用于测量人工智能模型通用智能水平的全新测试——ARC-AGI-2。

AI模型测试表现不佳 ：据ArcPrize排行榜显示，像OpenAI的o1-pro和DeepSeek的R1等“推理型”AI模型，以及GPT-4.5、Claude3.7Sonnet和gemini2.0Flash等非推理模型，在ARC-AGI-2测试中的得分大多仅在1%左右。ARC-AGI测试包含系列拼图问题，促使AI适应新问题。

人类基准远超模型 ：为建立人类基准，Arc Prize基金会邀请超400人参与ARC-AGI-2测试，人群平均得分达60%，远超任何AI模型。Chollet表示，ARC-AGI-2比ARC-AGI-1更能有效测量AI实际智能，旨在评估AI获取新技能的能力。

测试设计多方面改进 ：相较于ARC-AGI-1，ARC-AGI-2在设计上有诸多改进，引入“效率”新指标，要求模型即时解释模式。共同创始人GregKamradt称智力包含效率因素。

o3模型成绩反差大 ：值得关注的是，OpenAI的o3模型在ARC-AGI-1中成绩优异，直到2024年才被超越，但在ARC-AGI-2中得分仅4%，计算成本还高。此时技术界对AI进展衡量标准呼声渐高。

Arc Prize竞赛开启 ：同时，Arc Prize基金会宣布2025年Arc Prize竞赛，挑战开发者使AI在ARC-AGI-2测试中达到85%准确率，且每个任务花费仅0.42美元。

# AI快讯

文章版权归作者所有，未经允许请勿转载。