DeepSeek-R1引领AI变革，多维度探索智能新边界

AI快讯2年前 (2025)更新 niko

DeepSeek-R1的出现，在全球AI社区掀起了一阵狂热。2025年1月26日，一场围绕DeepSeek的闭门讨论会展开，众多顶尖AI研究员、投资人与一线从业者参与其中。

讨论会上，专家们对DeepSeek的各个方面进行了深入探讨。创始人梁文锋懂技术，是团队核心。DeepSeek因率先复现MoE、o1等成果获得好口碑，且在从preview到正式发布期间，长上下文能力提升显著。在算力方面，其注重合规，卡的数量相对较少。同时，DeepSeek聚焦智能本身，甚至放弃了多模态等方向，量化也被视为其商业模式之一。
在技术细节层面，DeepSeek带来诸多惊喜。它在推理层面无需做SFT，这一突破引发对新范式或架构的思考。此外，DeepSeek-R1展示了SFT在蒸馏中的好处，以及数据生成和利用的新方式。在数据标注上，DeepSeek极为重视，这也是模型效率提升的关键因素之一。
关于蒸馏技术，虽然它能提升小模型性能，但也存在模型diversity下降等问题。而在Process Reward方面，过程监督虽有潜力，但也面临reward hack等挑战。
从行业格局来看，模型在2025年将发生分化，新架构、RL潜力挖掘以及agent应用等方向值得关注。DeepSeek的出现，还让大家对英伟达和OpenAI的500B叙事产生质疑。

在开发者迁移、二级市场影响以及开源闭源之争等方面，DeepSeek也都带来了新的变化。它让外界看到中国AI的强大实力，未来，AI各实验室的竞争或许更多体现在愿景规划上。

# AI快讯

文章版权归作者所有，未经允许请勿转载。