LADDER方法助力DeepSeek蒸馏Qwen2.5 7B模型在MIT积分大赛超越o1

在AI模型发展进程中，一种全新的方法LADDER引发关注。该方法由小型独立研究团体TufaLabs提出，能通过递归问题分解实现AI模型的自我改进，且无需人工标注数据。

此前，DeepSeek的表现已备受瞩目，如32B的QwQ追平671的DeepSeekR1。而此次，7B的DeepSeek蒸馏Qwen模型凭借LADDER方法再次取得突破。在麻省理工学院积分大赛（MIT IntegrationBee）上，运用LADDER方法的Qwen2.57B模型达到90分，成功超越o1。值得一提的是，这一比赛专门聚焦于微积分中积分题，每年都吸引着MIT的数学高手参与挑战。

LADDER全称Learning through Autonomous Difficulty-Driven ExampleRecursion，核心是让语言模型通过自我生成和求解渐进简化的问题变体，提升解决复杂问题的能力。它作为一个结构化框架，包含变体生成、解的验证、强化学习等组件。变体生成用于生成复杂问题的简化变体树，建立难度梯度；解的验证采用数值积分方法验证积分解；强化学习则用于在变体树上训练基础模型。

与以往依赖大规模标注数据的训练方法不同，LADDER利用模型现有能力生成问题变体，实现自举学习，整个过程只需验证答案，无需人工干预。这一方法具有降低数据获取成本、学习更高效、避免陷入无关细节等优势。

此外，作者还提出创新的测试时强化学习方法TTRL。在推理阶段遇到复杂数学积分测试问题时，TTRL会动态生成简单积分变体，让模型通过解决变体积累经验，找到解决原始难题的方法。通过LADDER，原本准确率仅1%的LLaMA3.2 3B模型，在无人工标注数据情况下，解题准确率飙升至82%。更强大的Qwen2.5 7B Deepseek-R1Distilled模型，使用LADDER方法后，在MIT IntegrationBee比赛成绩从50%提高到73%，加上TTRL方法后最终成绩达到90。不过作者强调，与o1的对比并非严格头对头评估。

论文已上传到arXiv，论文地址：https://arxiv.org/abs/2503.00735 。

# AI快讯

文章版权归作者所有，未经允许请勿转载。