《Factorio》游戏成为人工智能评估新利器一款专注于建造与资源管理的复杂电脑游戏《Factorio》,近来成为研究人员评估人工智能能力的全新工具。该游戏能够有效测试语言模型在规划及构建复杂系统时的能力,同时兼顾多个资源与生产链的管理。
Factorio学习环境(FLE):两种测试模式开启 研究团队专门开发了 “Factorio学习环境”(FLE)系统,此系统提供 “实验模式” 与“开放模式” 两种不同测试模式。“实验模式” 设有24个结构化挑战,目标明确且资源有限,任务涵盖从简单的两台机器建造到近百台机器的复杂工厂建造。“开放模式”下,AI代理可在程序生成的地图中探索,唯一目标是打造尽可能庞大的工厂。
Python APi搭建交互桥梁 代理借助PythonAPI与《Factorio》进行交互,能够生成代码来执行各类操作并检查游戏状态。该系统旨在测试语言模型合成程序以及处理复杂系统的能力,API可实现放置和连接组件、管理资源以及监控生产进度等功能。
生产评分与里程碑:评估代理表现的关键指标 为评估代理表现,研究者采用 “生产评分” 和 “里程碑” 两个关键指标。“生产评分”计算总产出价值,随生产链复杂性增加呈指数增长;“里程碑” 跟踪创造新物品或研究技术等重要成就。游戏的经济模拟充分考虑资源稀缺性、市场价格和生产效率等因素。
六种语言模型接受考验研究团队对包括Claude3.5Sonnet、GPT-4o及其迷你版、DeepSeek-V3、gemini2.0Flash以及LLaMA-3.3-70B-Instruct在内的六种领先语言模型在FLE环境下的表现进行评估。测试显示,这些语言模型在空间推理、长期规划和错误纠正方面面临严峻挑战。构建工厂时,AI代理在高效安排和连接机器上困难重重,导致布局欠佳和生产瓶颈。模型多倾向短期目标,战略思维不足。面对复杂问题,调试效率低下。
Claude3.5Sonnet脱颖而出但仍有短板在参与测试的模型中,Claude3.5Sonnet表现最佳。实验模式下,Claude成功完成24个任务中的15个,其他模型最多完成10个。开放测试中,Claude生产评分达2456分,GPT-4o以1789分紧随。Claude展现复杂玩法,通过战略制造和研究,快速从基础产品转向复杂生产,电钻技术提升显著提高铁板生产速度。不过,Claude在长期规划和复杂问题处理方面仍存在困难。
FLE未来价值与展望研究者认为,FLE开放且可扩展的特性使其在未来测试更强大语言模型时具有重要价值。建议扩展该环境,纳入多代理场景和人类表现基准,以提供更优评估背景。此项工作丰富了基于游戏的AI基准测试集合,其中还包括BALROG和即将推出的MCBench等利用《Minecraft》进行模型测试的项目。