ARC-AGI-2测试全新亮相 :近日,由著名AI研究者François Chollet共同创立的ArcPrize基金会,发布了用于测量人工智能模型通用智能水平的全新测试——ARC-AGI-2。
AI模型测试表现不佳 :据ArcPrize排行榜显示,像OpenAI的o1-pro和DeepSeek的R1等“推理型”AI模型,以及GPT-4.5、Claude3.7Sonnet和gemini2.0Flash等非推理模型,在ARC-AGI-2测试中的得分大多仅在1%左右。ARC-AGI测试包含系列拼图问题,促使AI适应新问题。
人类基准远超模型 :为建立人类基准,Arc Prize基金会邀请超400人参与ARC-AGI-2测试,人群平均得分达60%,远超任何AI模型。Chollet表示,ARC-AGI-2比ARC-AGI-1更能有效测量AI实际智能,旨在评估AI获取新技能的能力。
测试设计多方面改进 :相较于ARC-AGI-1,ARC-AGI-2在设计上有诸多改进,引入“效率”新指标,要求模型即时解释模式。共同创始人GregKamradt称智力包含效率因素。
o3模型成绩反差大 :值得关注的是,OpenAI的o3模型在ARC-AGI-1中成绩优异,直到2024年才被超越,但在ARC-AGI-2中得分仅4%,计算成本还高。此时技术界对AI进展衡量标准呼声渐高。
Arc Prize竞赛开启 :同时,Arc Prize基金会宣布2025年Arc Prize竞赛,挑战开发者使AI在ARC-AGI-2测试中达到85%准确率,且每个任务花费仅0.42美元。
© 版权声明
文章版权归作者所有,未经允许请勿转载。