近期,一则有关“50美元与DeepSeekR1”的消息引发广泛关注,甚至一度引发对OpenAI和英伟达地位的猜测。然而,深入研究论文后会发现,事实并非如此。

论文中提到的50美元成本,源于使用16块H100 GPU且仅耗时26分钟,租服务器的话成本确实仅需几十美元。但关键在于,论文并非训练出了DeepSeekR1。其核心是基于开源的Qwen2.5 -32B模型,这是个蒸馏出来的中等参数模型,而作为对比的R1和o1是大几千亿参数的模型。研究采用小数据集进行监督微调,微调后参数数量基本不变,还在特定任务上优化了性能,使其媲美DeepSeekR1和OpenAI o1。
具体来看,研究有着明确的背景与目标。语言模型性能提升常依赖训练时计算资源扩展,测试时缩放成为新范式,OpenAI的o1模型展现出其潜力,可惜方法未公开。此研究意在探寻实现测试时缩放和强推理性能的最简方法。
在s1K数据集构建方面,初始数据收集依据质量、难度和多样性原则,从16个来源收集59029个问题,涵盖现有数据集整理和新定量推理数据集创建,利用GoogleGemini Flash ThinkingAPI生成推理轨迹和解决方案,并进行去重和去污染处理。最终经质量、难度和多样性三步筛选得到1000个样本的s1K数据集。

测试时缩放方法上,分为顺序和并行两类,重点研究顺序缩放,提出预算强制(Budgetforcing)方法,通过强制设定思考令牌的最大或最小数量,控制模型思考时间,引导模型检查答案、修正推理步骤。与其他方法对比后发现,预算强制在控制、缩放和最终性能上表现最佳。
实验结果显示,用s1K对Qwen2.5-32B-Instruct进行监督微调得到s1-32B模型,在AIME24、MATH500和GPQADiamond三个推理基准上评估,s1-32B在测试时缩放中,性能随测试时计算资源增加而提升,在AIME24上超过o1-preview达27%,且是最具样本效率的开源数据推理模型,接近Gemini2.0在AIME24上的性能。
消融实验进一步验证了数据相关因素以及测试时缩放方法的有效性。测试数据质量、多样性和难度组合十分重要,s1K构建方法优势明显。预算强制在AIME24测试中表现出色,其他方法各有优劣。
研究最后进行了讨论与展望,通过1000样本监督微调结合预算强制构建出有竞争力的模型,推测预训练与微调对模型推理能力的作用。同时对比了并行和顺序测试时缩放方法,分析预算强制局限性并提出改进方向。此次研究在AI领域具有重要意义,为后续发展提供了新的思路和方向。