ChatGPT Agent震撼发布：端到端通用Agent，多项基准测试破纪录

OpenAI推出 chatgpt Agent，引发行业关注

北京时间2025年7月18日凌晨1点，Sam Altman和四位OpenAI研究员在直播中正式推出ChatGPT Agent，这是一款通用型AIAgent。此前已有Manus、Lovart和Flowith等产品，ChatGPT Agent功能场景看似平常，但其发布意义远超功能本身。

独特技术路径，打造端到端通用Agent雏形

ChatGPTAgent的革命性在于其独特技术路径。它能主动从工具箱选代理技能，用自身计算机完成任务，用户可实时观察AI在虚拟环境工作过程。与Manus等产品交互界面相似，但底层原理差异显著。Manus是“外部缝合”，调用多个底层模型；而ChatGPTAgent将Agent能力内化于模型，呈现出端到端通用Agent雏形。

训练团队与方法，强化学习助力能力提升

为开发ChatGPT Agent，OpenAI将Operator和Deep ReseARCh团队合并成20至35人的新团队。该模型与OpenAIo3同系列，采用端到端训练方法，基本通过强化学习完成，和Grok4withtool路径类似。再训练后，Agent融合多方面能力，完成复杂任务后可交付可下载的PPT或文档。

功能特点丰富，多项优势凸显

ChatGPT Agent是能执行复杂、多工具任务的统一AIAgent。它集成对多种工具访问，支持交互式、多轮对话，安全防护升级，在多任务中取得先进结果。其核心是统一代理系统，整合扩展早期项目能力，能在对话流中无缝切换。它在特设虚拟计算机上执行任务，环境沙盒化确保安全，能保存任务上下文。还配备智能工具箱，可按需选工具。

基准测试表现优异，成绩破纪录

ChatGPT Agent在多项基准测试中成绩出色。最难的HLE达到41.6%（with tool），高于Grok4（withtool）的41.0%。在Humanity’s LastExam上，单次作答准确率41.6%，并行八路推理选最高置信度答案后可提升到44.4%。在FrontierMath数学基准上，借助终端运行代码准确率提升至27.4%。在多个评测中均刷新SOTA。

立即可用，使用便捷灵活

自发布日起，Pro用户可马上使用，Plus与Team用户数日内开通，Enterprise与Education版本数周后接入。不同用户有不同消息额度，可按量计费追加。使用时切到「代理模式」描述目标，可实时查看操作流程，还能设任务周期性执行。

提示使用风险，强化安全措施

奥特曼发布会后提示使用风险。不法分子可能诱骗AI代理获取私人信息，模型可能接触敏感数据或遭恶意攻击。为此，OpenAI沿用严格控制并新增防护，如关键动作需用户授权、高风险任务监督、拒绝高风险指令等。在生物与化学安全方面，按高风险级别处理，开展红队测试与威胁建模，启动漏洞赏金计划。

虽有进步但仍需迭代，未来值得期待

ChatGPTAgent最大创新是集成完整虚拟机环境，用户可实时观察操作过程。不过，各主流模型公司都在“Agent即模型，模型即Agent”道路上发展，OpenAI仅迈出一小步。OpenAI也表示功能处早期，将持续训练新版本，平衡易用与安全。

# AI快讯