元强化微调新方法问世卡内基梅隆大学(CMU)与HuggingFace的研究者共同推出“元强化微调”(MRT)方法,目标是优化大语言模型在测试时的计算效率,特别是在应对复杂推理问题方面。
解决现有模型痛点现有的大语言模型在推理过程中计算资源消耗大,MRT致力于让模型在既定计算预算内更高效地发现答案。该方法将大语言模型输出分割成多个片段,平衡探索与利用,通过学习训练数据,使模型面对未知难题时能兼顾已知信息与新解题策略。
实验效果显著CMU团队实验表明,使用MRT微调后,模型在多个推理基准测试上成绩突出。与传统结果奖励强化学习(GRPO)相比,MRT准确率是其2到3倍,token使用效率提升1.5倍,在提升推理能力的同时降低了计算资源消耗,实际应用优势明显。
为未来研究奠基 研究者还提出评估现有推理模型有效性的方法,展示了MRT的潜力,为大语言模型在更多复杂场景的应用指明方向。
项目地址公布 此次创新推动了AI技术前沿发展,项目地址:https://cohenqu.github.io/mrt.github.io/
© 版权声明
文章版权归作者所有,未经允许请勿转载。
Copyright © 2025 AI工具箱 鄂ICP备2024044990号-2