探秘s1模型：50美元背后的AI推理新路径

AI领域又有新动态，李飞飞等研究人员以不到50美元的云计算费用，成功训练出s1人工智能推理模型，此消息引发关注。

s1模型在数学和编码能力测试中，表现与OpenAI的O1和DeepSeek的R1等尖端推理模型相近。不过，该模型并非从零开始训练。论文显示，其借助测试时间缩放这一语言建模新方法，通过“预算强制”方法控制测试时计算量，利用精心整理的s1K数据集对Qwen2.5- 32B – Instruct语言模型进行有监督微调。

从实验方法看，主要包括数据集策划、预算强制和测试时间扩展方法。团队基于质量、难度和多样性标准，从多个来源收集问题，确定1000个高质量样本组成s1K数据集。预算强制通过控制计算量优化模型性能，测试时间扩展方法分顺序扩展和并行扩展。

“不到50美元”仅为云计算服务费用，不涵盖硬件投入。对于此情况，DeepSeek分析成本低可能源于模型架构创新、训练策略突破、硬件利用革新等因素，还提及了蒸馏监督微调这一有效的模型训练方法。

很多主流大模型都使用过数据蒸馏方法，s1模型虽取得不错效果，但蒸馏基于强大开源模型。“50美元复刻DeepSeek”的标题虽吸睛，但有些夸大。其案例或为未来研究提供方向。

# AI快讯

文章版权归作者所有，未经允许请勿转载。