深度解析：Qwen2.5 – 32B模型与预算强制方法实现高效推理

近期，一则有关“50美元与DeepSeekR1”的消息引发广泛关注，甚至一度引发对OpenAI和英伟达地位的猜测。然而，深入研究论文后会发现，事实并非如此。

论文中提到的50美元成本，源于使用16块H100 GPU且仅耗时26分钟，租服务器的话成本确实仅需几十美元。但关键在于，论文并非训练出了DeepSeekR1。其核心是基于开源的Qwen2.5 -32B模型，这是个蒸馏出来的中等参数模型，而作为对比的R1和o1是大几千亿参数的模型。研究采用小数据集进行监督微调，微调后参数数量基本不变，还在特定任务上优化了性能，使其媲美DeepSeekR1和OpenAI o1。

具体来看，研究有着明确的背景与目标。语言模型性能提升常依赖训练时计算资源扩展，测试时缩放成为新范式，OpenAI的o1模型展现出其潜力，可惜方法未公开。此研究意在探寻实现测试时缩放和强推理性能的最简方法。

在s1K数据集构建方面，初始数据收集依据质量、难度和多样性原则，从16个来源收集59029个问题，涵盖现有数据集整理和新定量推理数据集创建，利用GoogleGemini Flash ThinkingAPI生成推理轨迹和解决方案，并进行去重和去污染处理。最终经质量、难度和多样性三步筛选得到1000个样本的s1K数据集。

测试时缩放方法上，分为顺序和并行两类，重点研究顺序缩放，提出预算强制（Budgetforcing）方法，通过强制设定思考令牌的最大或最小数量，控制模型思考时间，引导模型检查答案、修正推理步骤。与其他方法对比后发现，预算强制在控制、缩放和最终性能上表现最佳。

实验结果显示，用s1K对Qwen2.5-32B-Instruct进行监督微调得到s1-32B模型，在AIME24、MATH500和GPQADiamond三个推理基准上评估，s1-32B在测试时缩放中，性能随测试时计算资源增加而提升，在AIME24上超过o1-preview达27%，且是最具样本效率的开源数据推理模型，接近Gemini2.0在AIME24上的性能。

消融实验进一步验证了数据相关因素以及测试时缩放方法的有效性。测试数据质量、多样性和难度组合十分重要，s1K构建方法优势明显。预算强制在AIME24测试中表现出色，其他方法各有优劣。

研究最后进行了讨论与展望，通过1000样本监督微调结合预算强制构建出有竞争力的模型，推测预训练与微调对模型推理能力的作用。同时对比了并行和顺序测试时缩放方法，分析预算强制局限性并提出改进方向。此次研究在AI领域具有重要意义，为后续发展提供了新的思路和方向。

# AI快讯

文章版权归作者所有，未经允许请勿转载。