上海交大联合团队：工具增强推理智能体X-Masters首破人类最后的考试30分大关

AI快讯1年前 (2025)发布 niko

上海交大联合深势科技团队在“人类最后的考试”（HLE）中取得重大突破，其推出的工具增强推理智能体X-Master和多智能体工作流系统X-Masters，以32.1分的成绩刷新纪录，成为首个在HLE上得分超过30%的系统。

“人类最后的考试”由AI安全中心和ScaleAI发起，今年年初发布，题目来自500多家机构的1000多名学者，涵盖数理化、生物医药等多学科，需经大模型和人工双重审查，难度极高。此前最高分不过26.9分。

团队在研究中推出的工具增强推理智能体X-Master，由开源模型如DeepSeek-R1驱动，其核心设计模拟人类研究者解决问题过程，通过将代码概念化为交互语言，在内部推理和外部工具使用间切换。当遇到难题时，它会编写代码块并执行，结果用于后续推理。同时，为引导非智能体的推理模型，团队引入初始推理引导机制，嵌入引导文本让模型“相信”自身能力。

多智能体工作流系统X-Masters是一种分散 -堆叠式智能体工作流。“分散”阶段，多个求解器智能体并行生成方案，批评者智能体修正缺陷；“堆叠”阶段，重写器智能体整合输出，选择器智能体裁定最佳答案，类似于强化学习中的“Rollouts”概念。

实验中，团队使用DeepSeek-R1 -0528作为推理模型，测试HLE纯文本子集。结果显示，X-Masters在所有类别中表现优于DeepSeek-R1 -0528，消融研究揭示了各环节的渐进收益。此外，在生物学领域测试中，X-Masters也超越现有系统。

值得一提的是，团队将这套方案开源，共同一作来自上海交通大学人工智能研究院，由陈思衡副教授指导，深势科技创始人兼首席科学家张林峰署名。相关论文和代码已公布。

# AI快讯

文章版权归作者所有，未经允许请勿转载。