智能体发展引发关注,能否全面替代人类成焦点。如今,让智能体通往AGI已成为行业共识。OpenAI不断推出新功能,o1-Pro价格昂贵,Grok也上线了DeeperSeARCh,智能体在为代码农和研究员工作方面,正成为大模型实现商业价值的方向。
智能体全面顶替人类尚需时日。尽管Meta和微软有大规模裁员,但被裁的是绩效考核不佳的人类员工。METR研究发现,目前智能体还无法替代人类完成需1小时以上的软件任务。不过,智能体解决复杂任务的能力在提升,平均每7个月为人类专家节省的时间翻一番。预计2028年后,有50%的成功率完成人类1个月内的任务,而真正完全自主做到这一切,可能要到2031年。
METR提出HCAST测试集评估智能体。METR作为美国人工智能安全研究所联盟成员机构,为多机构提供评估。其创始人曾在OpenAI研究对齐问题,“图灵三巨头”之一的本吉奥是顾问。因现有测试基准存在不足,METR提出HCAST,这是包含多项任务的基准测试集,人类专家与智能体在相同条件下执行任务后对比。结果显示,人类耗时不到4分钟的任务,智能体成功率高;而人类耗时4小时以上的任务,智能体成功率低。
智能体进步显著但仍有局限。不同时代的模型在完成任务能力上有进步,如GPT-3时代模型在超1分钟任务上失败,GPT-4能以50%成功率完成4分钟任务,Claude 3.7Sonnet能将上限提升到59分钟。但在真实世界中,智能体完成多步骤长时序任务还不够稳定。
智能体的经济效用与性价比分析 。以50%成功率为基准,前沿大模型的t-AGI平均每7个月翻倍。虽然目前智能体在部分任务上性价比高,推理成本低于人类专家10%,但完成现实任务还离不开人类。
不同模型在METR测试中的表现。METR测试的模型多来自合作方,也测试了DeepSeek的V3与R1等。结果显示,R1能以50%成功率完成人类专家35分钟的任务,略高于V3,低于部分其他模型,大概处于全球最前沿大模型9月份的水平,差距约4个月。且从V3到R1对完成人类任务时长的提升跨度不及OpenAI部分模型。