斯坦福大学与华盛顿大学的AI研究人员成功打造出一款名为s1的AI推理模型。令人瞩目的是,该模型训练成本极为低廉,不到50美元,所需云计算信用额度也极低。上周五这一研究成果对外公布,数据显示,s1在数学和编程能力测试中的表现,丝毫不亚于OpenAI的o1模型与DeepSeek的R1模型。
研究团队透露,他们借助蒸馏技术,从现成基础模型入手进行微调,以此获取所需的推理能力。s1的蒸馏过程采用了谷歌的Gemini2.0 FlashThinkingExperimental模型。值得一提的是,这种方式与加州大学伯克利分校研究人员上月训练另一款AI推理模型的方法类似,不过后者训练成本约450美元。
这一成果在AI领域激起千层浪。一方面,让众多研究者振奋不已,毕竟在当下,即便没有巨额资金支持,也能实现创新;另一方面,s1的诞生也引发了对AI模型商品化的深刻思考。若以相对低成本就能复制出价值数百万美元的模型,那么大公司的优势究竟何在?
大型AI实验室对此反应强烈,OpenAI就曾指控DeepSeek在模型蒸馏时不当使用其API数据。s1研究团队期望找到简单途径,实现强大推理性能,同时提升“测试时间扩展”能力,这正是OpenAI的o1模型取得突破之处,DeepSeek等实验室也曾尝试效仿。
研究表明,通过较小数据集,运用监督微调(SFT)方法能有效蒸馏推理模型,且该方法通常比DeepSeek采用的大规模强化学习方法成本更低。谷歌虽提供对Gemini2.0Flash Thinking Experimental的免费访问,但有每日使用限制,且条款禁止逆向工程开发竞争服务。
为训练s1,研究人员构建了含1000个精心挑选问题及答案的数据集,并附上问题背后“思考”过程。训练使用16个Nvidia H100GPU,耗时不到30分钟。研究人员称,如今租所需计算资源约20美元。此外,团队还采用巧妙技巧,让s1推理时添加“等待”一词,提高答案准确性。
展望2025年,Meta、谷歌和微软计划在AI基础设施投入数千亿美元,部分资金将用于训练下一代AI模型。尽管蒸馏技术在低成本再现AI模型能力上效果良好,但对新AI模型表现提升并不显著。论文:https://arxiv.org/pdf/2501.19393代码:https://github.com/simplescaling/s1