DrafterBench：大语言模型工程自动化任务评估新基准

工程自动化领域新突破：DrafterBench登场

在当今AI迅猛发展的时代，大语言模型（LLM）不再局限于理论层面的表现。近日，由加拿大麦吉尔大学AIS实验室与加州大学圣芭芭拉分校（UCSB）合作推出的首个工程自动化任务评估基准DrafterBench，为大语言模型在土木工程图纸修改任务中的应用带来了全新的评估视角。

为何需要DrafterBench

土木工程、建筑设计等领域的图纸修改工作，是一项高频且耗时的任务。这类工作虽技术门槛不高，但对工作者的综合执行力要求极高，需具备出色的任务理解、细节处理和任务链配合能力。因此，研究团队提出设想：若大模型能读懂图纸指令、调用工具链并精确修改图元，将成为工程人员的得力助手。DrafterBench正是为实现这一目标而诞生。

DrafterBench的运作方式

DrafterBench以图纸修改为核心，在20个真实项目中收集并设计了1920个高质量任务，涵盖12类指令类型，全面模拟了各种难度和风格的真实工程命令。该基准从结构化数据理解、工具调用、指令跟随和批判性推理四个维度考察模型能力。结构化数据理解要求模型准确提取关键细节；工具调用能力需模型组合多个工具形成有效操作链；指令跟随能力考验模型在长指令下的任务执行完整性；批判性推理能力则看模型能否识别并修正指令中的不合理内容。

评估模型的独特方法

在DrafterBench中，模型通过「代码调用工具」完成任务，这些工具形成一个「工程任务链」。为准确评估模型表现，DrafterBench设计了对偶工具系统。该系统的工具不实际修改图纸，但记录调用顺序、参数值和变量状态，并以JSON形式输出，清晰还原模型的「行动路径」，便于分析模型的错误所在。

模型表现分析

评测结果显示，主流大语言模型如OpenAI GPT – 4o / o1系列、Claude 3.5Sonnet等得分普遍超过65分，具备一定的工程任务处理能力。然而，不同模型在各能力维度上差异显著。在结构化数据理解任务中，模型表现稳定；工具调用准确率波动较大；指令跟随能力方面，部分模型表现出色；批判性推理任务中，模型能力分化明显。研究团队通过自动化错误分析工具发现，模型常见错误包括参数定义不清、变量传递失败等，这导致多数模型单项能力准确率约60%，但整体目标修改完成度仅40%左右。

结论与未来展望

评估结果表明，当前大模型虽能拆解复杂任务结构、调用工程工具，但难以稳健掌握完整任务链的所有细节，无法满足工程一线需求。DrafterBench的出现，首次让模型接受了「干不干得好」的落地考核。未来，研究团队将扩展任务类型至图纸校审、规范检测等更多工程应用场景，进一步拓展模型能力边界。

# AI快讯