卡内基梅隆大学与HuggingFace提出MRT提升大语言模型推理及计算效率

AI快讯23小时前发布 niko
3 0
AiPPT - 一键生成ppt

元强化微调新方法问世卡内基梅隆大学(CMU)与HuggingFace的研究者共同推出“元强化微调”(MRT)方法,目标是优化大语言模型在测试时的计算效率,特别是在应对复杂推理问题方面。

解决现有模型痛点现有的大语言模型在推理过程中计算资源消耗大,MRT致力于让模型在既定计算预算内更高效地发现答案。该方法将大语言模型输出分割成多个片段,平衡探索与利用,通过学习训练数据,使模型面对未知难题时能兼顾已知信息与新解题策略。

实验效果显著CMU团队实验表明,使用MRT微调后,模型在多个推理基准测试上成绩突出。与传统结果奖励强化学习(GRPO)相比,MRT准确率是其2到3倍,token使用效率提升1.5倍,在提升推理能力的同时降低了计算资源消耗,实际应用优势明显。

为未来研究奠基 研究者还提出评估现有推理模型有效性的方法,展示了MRT的潜力,为大语言模型在更多复杂场景的应用指明方向。

项目地址公布 此次创新推动了AI技术前沿发展,项目地址:https://cohenqu.github.io/mrt.github.io/

© 版权声明
智谱清言 - 国产最强AI模型