用“小”算法辅助“大”模型
研究人员对Llama3进行微调后,采用了新的加速算法,使得模型每秒可以处理超过1000个token,这相当于近4000个字符的速度,在代码重写任务上,表现出色,甚至超过了GPT-4o。这项成就来自于备受瞩目的AI编程助手Cursor背后的开发团队anysphere,该团队得到了OpenAI的投资支持。
全新加速算法的应用
在对代码进行快速修改并应用的“Fast Apply”任务中,虽然操作过程中看似只是对代码局部进行修改,但实际上输出的是全量的代码重写。这一选择是基于团队的实验发现,除了Claude-3-Opus之外,大多数模型在局部修改任务上的性能并不理想。经过原因分析,团队选择对Llama3进行了细粒度的微调,使用了1:4的真实编辑数据与合成数据相结合,并采用了下采样技术以提升数据集质量。
实验结果与性能提升
经过微调的70B Llama3模型在处理450个不超过400行的代码编辑任务时,显示出与Claude3-Opus-diff相近的表现,并超过了GPT-4-Turbo和GPT-4o。此外,团队还专门为代码改写任务研发了一种预测性编辑算法,通过预测后续多个token并用本体大模型进行验证,有效降低了大模型的调用次数,从而显著提升了运算速度。
未来发展规划
据悉,anysphere团队还计划对模型进行知识蒸馏,并将预测编辑算法移植到体积更小的8B Llama3,并希望将其应用于更多编程语言和任务。此外,他们还将探索在GPT中加速预测算法的具体实现,并向社区提出了挑战,以促进进一步的创新和开发。
有奖竞猜
为了激发更多人的兴趣和参与,anysphere团队还设置了一个“有奖竞猜”活动,鼓励大家探索和实现在其他AI模型中应用预测加速的可能性,提供了丰厚的奖品吸引更多人参与其中。
参考链接
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...