草稿链技术：降低AI推理成本与延迟的新突破

AI推理新突破：草稿链技术降低成本与延迟

在企业大力部署AI的当下，计算成本与响应时间成为阻碍其广泛应用的瓶颈。来自Zoom的华人研究团队带来了突破性的「草稿链」（Chain ofDraft，CoD）技术，有望改变企业大规模部署AI的模式。

LLM推理中的延迟问题常被忽视，实时应用却对其要求严苛。而草稿链技术通过减少冗长表述、聚焦关键要点，在准确率上与思维链（CoT）相当甚至更优，使用的token量仅为7.6%，显著降低了推理任务的成本和延迟。

草稿链的灵感源于人类解决复杂问题的方式。人们在解题时通常用缩写形式记录关键信息，受此启发，研究人员提出这一全新提示策略。CoD不要求模型生成冗长中间步骤，而是让LLM在每一步生成简洁、信息密集的输出，限制每个推理步骤最多五个词，使模型专注关键信息。

研究团队在众多基准测试中验证了CoD的性能，包括算术推理、常识推理以及符号推理。实验结果显示，CoD在保持高准确率的同时，大幅降低了token使用量和延迟。在各类推理任务中，与CoT相比展现出显著的效率优势。

例如，在算术推理任务中，对于 GPT-4o和 Claude3.5，CoD都达到了91%的准确率，每个响应仅需约40个token，相比CoT减少了约80%，平均延迟也大幅降低。在常识推理的日期理解和体育理解任务中，CoD不仅降低了延迟和成本，准确率还优于CoT。在符号推理任务中，与CoT相比，GPT-4o的token减少了68%，Claude3.5 Sonnet减少了86%。

目前，该项目已在GitHub上开源。对于企业来说，草稿链的吸引力还在于其简便的实现方式。已在使用CoT的企业，仅需对现有模型的提示进行简单修改，就能切换至CoD。在实时客户支持、移动AI、教育以及金融服务等对延迟极为敏感的应用场景中，CoD技术的价值尤为明显。

AI研究员Prabhakar表示，对于一家每月处理100万次推理查询的企业而言，采用草稿链技术，每月成本可大幅降低。随着AI模型的不断演进，优化推理效率与提升原始能力同样重要，而CoD让先进的推理技术更亲民、易用，有助于其在更广泛场景中普及。

# AI快讯

文章版权归作者所有，未经允许请勿转载。