智能体能否取代人类？METR研究揭示真相

AI快讯1年前 (2025)发布 niko

智能体发展引发关注，能否全面替代人类成焦点。如今，让智能体通往AGI已成为行业共识。OpenAI不断推出新功能，o1-Pro价格昂贵，Grok也上线了DeeperSeARCh，智能体在为代码农和研究员工作方面，正成为大模型实现商业价值的方向。

智能体全面顶替人类尚需时日。尽管Meta和微软有大规模裁员，但被裁的是绩效考核不佳的人类员工。METR研究发现，目前智能体还无法替代人类完成需1小时以上的软件任务。不过，智能体解决复杂任务的能力在提升，平均每7个月为人类专家节省的时间翻一番。预计2028年后，有50%的成功率完成人类1个月内的任务，而真正完全自主做到这一切，可能要到2031年。

METR提出HCAST测试集评估智能体。METR作为美国人工智能安全研究所联盟成员机构，为多机构提供评估。其创始人曾在OpenAI研究对齐问题，“图灵三巨头”之一的本吉奥是顾问。因现有测试基准存在不足，METR提出HCAST，这是包含多项任务的基准测试集，人类专家与智能体在相同条件下执行任务后对比。结果显示，人类耗时不到4分钟的任务，智能体成功率高；而人类耗时4小时以上的任务，智能体成功率低。

智能体进步显著但仍有局限。不同时代的模型在完成任务能力上有进步，如GPT-3时代模型在超1分钟任务上失败，GPT-4能以50%成功率完成4分钟任务，Claude 3.7Sonnet能将上限提升到59分钟。但在真实世界中，智能体完成多步骤长时序任务还不够稳定。

智能体的经济效用与性价比分析 。以50%成功率为基准，前沿大模型的t-AGI平均每7个月翻倍。虽然目前智能体在部分任务上性价比高，推理成本低于人类专家10%，但完成现实任务还离不开人类。

不同模型在METR测试中的表现。METR测试的模型多来自合作方，也测试了DeepSeek的V3与R1等。结果显示，R1能以50%成功率完成人类专家35分钟的任务，略高于V3，低于部分其他模型，大概处于全球最前沿大模型9月份的水平，差距约4个月。且从V3到R1对完成人类任务时长的提升跨度不及OpenAI部分模型。

# AI快讯

文章版权归作者所有，未经允许请勿转载。