ChatGPT Agent上线：整合多系统，刷新多项基准测试纪录

AI快讯1年前 (2025)发布 niko

OpenAI推出 chatgpt Agent功能，革新AI任务执行模式

在AI领域，Agent概念备受关注，但此前产品级落地缺乏完整执行系统。近日，OpenAI正式发布ChatGPT Agent功能，为这一领域带来新变革。

ChatGPT Agent整合了Operator、DeepReseARCh与ChatGPT本体。Operator提供网页交互能力，支持自动滚动、点击、填表；DeepResearch擅长信息整合与分析；ChatGPT本体负责自然语言理解与智能推理。用户只需描述任务，该功能就能自主判断所需工具，自动完成访问网页、提取信息、运行代码、生成PPT或表格等操作，还能在执行中实时展示步骤，接受临时中断和修改指令。

这一功能的使用方式简便，用户在任何对话中，可通过聊天界面左下角“工具”下拉菜单选择“Agent模式”启用。输入任务后，它能浏览网站、筛选结果、安全提示登录等。整个执行过程可视，用户可随时干预。

OpenAI在凌晨演示中展示了其在真实场景的应用。比如准备婚礼，它能在十分钟左右完成调取日期、查询天气、推荐西装、筛选酒店等任务，还能处理临时插入的需求。这种可打断、可多轮对话的机制是训练重点。

ChatGPTAgent还支持手机端使用，任务完成自动推送结果，可连接Gmail、GitHub等第三方应用，深度嵌入工作流。不过，其生成的PPT设计审美一般，且暂不支持二次修改，但直接生成代码创建文档的方式更轻量高效。

在性能方面，ChatGPT Agent表现卓越。在评估AI解决跨学科专家级问题的Humanity’s LastExam基准测试中，以41.6的pass@1得分刷新纪录，启用并行执行策略后提升至44.4。在FrontierMath基准中，准确率达27.4%。在内部基准测试中，约一半任务输出质量达或超人类水平，优于o3和o4- mini模型。在BRowseComp基准上，以68.9%的准确率刷新纪录。

从平台视角看，Agent能力底层接口是浏览器。它能让AI具备实际行动力，用户与AI在同一交互空间，可控性与透明度高。ChatGPTAgent上线后，声称要做Agent的厂商需重新审视产品路径，该功能拉高了Agent可用性门槛。

目前，Pro用户今日可获访问权限，Plus与Team用户未来几天开放，企业版和教育版未来几周上线。Pro用户每月可使用400次，其他付费用户每月40次，还可购买更多额度。

# AI快讯

文章版权归作者所有，未经允许请勿转载。