上海交大联合深势科技团队在“人类最后的考试”(HLE)中取得重大突破,其推出的工具增强推理智能体X-Master和多智能体工作流系统X-Masters,以32.1分的成绩刷新纪录,成为首个在HLE上得分超过30%的系统。
“人类最后的考试”由AI安全中心和ScaleAI发起,今年年初发布,题目来自500多家机构的1000多名学者,涵盖数理化、生物医药等多学科,需经大模型和人工双重审查,难度极高。此前最高分不过26.9分。
团队在研究中推出的工具增强推理智能体X-Master,由开源模型如DeepSeek-R1驱动,其核心设计模拟人类研究者解决问题过程,通过将代码概念化为交互语言,在内部推理和外部工具使用间切换。当遇到难题时,它会编写代码块并执行,结果用于后续推理。同时,为引导非智能体的推理模型,团队引入初始推理引导机制,嵌入引导文本让模型“相信”自身能力。
多智能体工作流系统X-Masters是一种分散 -堆叠式智能体工作流。“分散”阶段,多个求解器智能体并行生成方案,批评者智能体修正缺陷;“堆叠”阶段,重写器智能体整合输出,选择器智能体裁定最佳答案,类似于强化学习中的“Rollouts”概念。
实验中,团队使用DeepSeek-R1 -0528作为推理模型,测试HLE纯文本子集。结果显示,X-Masters在所有类别中表现优于DeepSeek-R1 -0528,消融研究揭示了各环节的渐进收益。此外,在生物学领域测试中,X-Masters也超越现有系统。
值得一提的是,团队将这套方案开源,共同一作来自上海交通大学人工智能研究院,由陈思衡副教授指导,深势科技创始人兼首席科学家张林峰署名。相关论文和代码已公布。
© 版权声明
文章版权归作者所有,未经允许请勿转载。