企业在人工智能技术发展下,思考单一AI代理与多代理网络的选择。近日,Orchestration框架公司LangChain开展实验,聚焦AI代理面对过多指令和工具时的表现极限。
LangChain在博客详述实验过程,核心问题为:当ReAct代理处理过多指令和工具,性能何时下降?研究团队选用“最基础的代理架构之一”——ReAct代理框架。

实验旨在评估内部邮件助手在答复客户问题和安排会议两项任务中的表现。研究人员运用一系列预构建的ReAct代理,借助LangGraph平台测试,涉及Claude3.5Sonnet、LLaMA-3.3-70B、GPT-4o等语言模型。
实验首步测试邮件助手的客户支持能力,即代理接受并回复客户邮件的情况。随后,关注代理在日历安排上的表现,确保能记住特定指令。
研究人员设置每个任务30项的压力测试,分客户支持和日历安排两领域。结果显示,代理面对过多任务时会不堪重负,甚至忘记调用必要工具。如处理七个领域任务时,GPT-4o表现降至2%;Llama-3.3-70B在任务测试中失误多,未调用发送邮件工具。
LangChain发现,随着上下文增加,代理指令执行能力显著下降。虽Claude-3.5-sonnet等模型在多领域任务中表现较好,但任务复杂性增加时性能也会下降。公司称未来将深入探讨评估多代理架构,提升代理性能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。