卡内基梅隆大学与HuggingFace提出MRT提升大语言模型推理及计算效率

元强化微调新方法问世卡内基梅隆大学(CMU)与HuggingFace的研究者共同推出“元强化微调”（MRT）方法，目标是优化大语言模型在测试时的计算效率，特别是在应对复杂推理问题方面。

解决现有模型痛点现有的大语言模型在推理过程中计算资源消耗大，MRT致力于让模型在既定计算预算内更高效地发现答案。该方法将大语言模型输出分割成多个片段，平衡探索与利用，通过学习训练数据，使模型面对未知难题时能兼顾已知信息与新解题策略。

实验效果显著CMU团队实验表明，使用MRT微调后，模型在多个推理基准测试上成绩突出。与传统结果奖励强化学习（GRPO）相比，MRT准确率是其2到3倍，token使用效率提升1.5倍，在提升推理能力的同时降低了计算资源消耗，实际应用优势明显。