在AI模型发展进程中,一种全新的方法LADDER引发关注。该方法由小型独立研究团体TufaLabs提出,能通过递归问题分解实现AI模型的自我改进,且无需人工标注数据。
此前,DeepSeek的表现已备受瞩目,如32B的QwQ追平671的DeepSeekR1。而此次,7B的DeepSeek蒸馏Qwen模型凭借LADDER方法再次取得突破。在麻省理工学院积分大赛(MIT IntegrationBee)上,运用LADDER方法的Qwen2.57B模型达到90分,成功超越o1。值得一提的是,这一比赛专门聚焦于微积分中积分题,每年都吸引着MIT的数学高手参与挑战。
LADDER全称Learning through Autonomous Difficulty-Driven ExampleRecursion,核心是让语言模型通过自我生成和求解渐进简化的问题变体,提升解决复杂问题的能力。它作为一个结构化框架,包含变体生成、解的验证、强化学习等组件。变体生成用于生成复杂问题的简化变体树,建立难度梯度;解的验证采用数值积分方法验证积分解;强化学习则用于在变体树上训练基础模型。
与以往依赖大规模标注数据的训练方法不同,LADDER利用模型现有能力生成问题变体,实现自举学习,整个过程只需验证答案,无需人工干预。这一方法具有降低数据获取成本、学习更高效、避免陷入无关细节等优势。
此外,作者还提出创新的测试时强化学习方法TTRL。在推理阶段遇到复杂数学积分测试问题时,TTRL会动态生成简单积分变体,让模型通过解决变体积累经验,找到解决原始难题的方法。通过LADDER,原本准确率仅1%的LLaMA3.2 3B模型,在无人工标注数据情况下,解题准确率飙升至82%。更强大的Qwen2.5 7B Deepseek-R1Distilled模型,使用LADDER方法后,在MIT IntegrationBee比赛成绩从50%提高到73%,加上TTRL方法后最终成绩达到90。不过作者强调,与o1的对比并非严格头对头评估。
论文已上传到arXiv,论文地址:https://arxiv.org/abs/2503.00735 。