2025年被视为agent爆发之年。大语言模型(LLM)驱动的agent系统,尤其是多agent系统(MAS),因具备处理复杂任务与实时互动能力,被广泛应用于多个领域,旨在解决现实世界中的各类问题。
然而,实际应用中多agent系统却存在问题,相较于单个agent系统或更简单的baseline,其在处理实际问题时出错概率更高。以AppWorld为例,故障率高达86.7%。
加州大学伯克利分校和意大利联合圣保罗银行的研究团队,对多agent系统面临的挑战展开全面研究。他们首次确定了14种独特的故障模式,并将其划分为规范和系统设计故障、agent间错位、任务验证和终止3大类。
研究团队提出首个基于经验的多agent系统故障分类法——MASFT,为理解和缓解多agent系统故障提供结构化框架。同时,开发可扩展的“LLM-as-a-judge”评估管道,用于分析新的多agent系统性能和诊断故障模式。
针对agent规范、对话管理和验证策略,研究团队进行干预研究,虽任务完成率提高14%,但多agent系统故障问题仍未完全解决,凸显结构性重新设计的必要性。研究成果已开源,涵盖150多个标注的多agent系统会话轨迹等内容。
研究团队运用扎根理论,直接从经验数据构建理论,识别故障模式。通过理论抽样等方法收集分析执行轨迹,开发基于LLM的标注器,经反复调整达成共识,确定MASFT的3个总体故障类别及14种细粒度故障模式,并明确故障模式可能发生的执行阶段。
研究还发现,多agent系统故障模式与人类组织类似。针对故障类别,研究团队提出战术策略和结构策略。战术策略针对特定故障模式直接修改,但有效性不一;结构策略更全面,有待深入研究和实施。
在案例研究中,研究团队分别在AG2的MathChat场景和ChatDev模拟的多agent软件公司中应用策略方法。结果表明,许多看似有效的解决方案存在局限性,未来多agent系统需做到快速响应、实时验证和动态协调,以提升团队协作有效性,在分布式科研协作等领域发挥潜力。