草稿链技术:降低AI推理成本与延迟的新突破

AI快讯1个月前发布 niko
6 0
AiPPT - 一键生成ppt

AI推理新突破:草稿链技术降低成本与延迟

在企业大力部署AI的当下,计算成本与响应时间成为阻碍其广泛应用的瓶颈。来自Zoom的华人研究团队带来了突破性的「草稿链」(Chain ofDraft,CoD)技术,有望改变企业大规模部署AI的模式。

LLM推理中的延迟问题常被忽视,实时应用却对其要求严苛。而草稿链技术通过减少冗长表述、聚焦关键要点,在准确率上与思维链(CoT)相当甚至更优,使用的token量仅为7.6%,显著降低了推理任务的成本和延迟。

草稿链的灵感源于人类解决复杂问题的方式。人们在解题时通常用缩写形式记录关键信息,受此启发,研究人员提出这一全新提示策略。CoD不要求模型生成冗长中间步骤,而是让LLM在每一步生成简洁、信息密集的输出,限制每个推理步骤最多五个词,使模型专注关键信息。

研究团队在众多基准测试中验证了CoD的性能,包括算术推理、常识推理以及符号推理。实验结果显示,CoD在保持高准确率的同时,大幅降低了token使用量和延迟。在各类推理任务中,与CoT相比展现出显著的效率优势。

例如,在算术推理任务中,对于GPT-4o和Claude3.5,CoD都达到了91%的准确率,每个响应仅需约40个token,相比CoT减少了约80%,平均延迟也大幅降低。在常识推理的日期理解和体育理解任务中,CoD不仅降低了延迟和成本,准确率还优于CoT。在符号推理任务中,与CoT相比,GPT-4o的token减少了68%,Claude3.5 Sonnet减少了86%。

目前,该项目已在GitHub上开源。对于企业来说,草稿链的吸引力还在于其简便的实现方式。已在使用CoT的企业,仅需对现有模型的提示进行简单修改,就能切换至CoD。在实时客户支持、移动AI、教育以及金融服务等对延迟极为敏感的应用场景中,CoD技术的价值尤为明显。

AI研究员Prabhakar表示,对于一家每月处理100万次推理查询的企业而言,采用草稿链技术,每月成本可大幅降低。随着AI模型的不断演进,优化推理效率与提升原始能力同样重要,而CoD让先进的推理技术更亲民、易用,有助于其在更广泛场景中普及。

© 版权声明
Trea - 国内首个原生AI IDE