多agent系统故障全解析：14种模式、策略及未来走向

AI快讯12个月前发布 niko

2025年被视为agent爆发之年。大语言模型（LLM）驱动的agent系统，尤其是多agent系统（MAS），因具备处理复杂任务与实时互动能力，被广泛应用于多个领域，旨在解决现实世界中的各类问题。

然而，实际应用中多agent系统却存在问题，相较于单个agent系统或更简单的baseline，其在处理实际问题时出错概率更高。以AppWorld为例，故障率高达86.7%。

加州大学伯克利分校和意大利联合圣保罗银行的研究团队，对多agent系统面临的挑战展开全面研究。他们首次确定了14种独特的故障模式，并将其划分为规范和系统设计故障、agent间错位、任务验证和终止3大类。

研究团队提出首个基于经验的多agent系统故障分类法——MASFT，为理解和缓解多agent系统故障提供结构化框架。同时，开发可扩展的“LLM-as-a-judge”评估管道，用于分析新的多agent系统性能和诊断故障模式。

针对agent规范、对话管理和验证策略，研究团队进行干预研究，虽任务完成率提高14%，但多agent系统故障问题仍未完全解决，凸显结构性重新设计的必要性。研究成果已开源，涵盖150多个标注的多agent系统会话轨迹等内容。

研究团队运用扎根理论，直接从经验数据构建理论，识别故障模式。通过理论抽样等方法收集分析执行轨迹，开发基于LLM的标注器，经反复调整达成共识，确定MASFT的3个总体故障类别及14种细粒度故障模式，并明确故障模式可能发生的执行阶段。

研究还发现，多agent系统故障模式与人类组织类似。针对故障类别，研究团队提出战术策略和结构策略。战术策略针对特定故障模式直接修改，但有效性不一；结构策略更全面，有待深入研究和实施。

在案例研究中，研究团队分别在AG2的MathChat场景和ChatDev模拟的多agent软件公司中应用策略方法。结果表明，许多看似有效的解决方案存在局限性，未来多agent系统需做到快速响应、实时验证和动态协调，以提升团队协作有效性，在分布式科研协作等领域发挥潜力。

文章版权归作者所有，未经允许请勿转载。