DeepSeek-R1的出现,在全球AI社区掀起了一阵狂热。2025年1月26日,一场围绕DeepSeek的闭门讨论会展开,众多顶尖AI研究员、投资人与一线从业者参与其中。

讨论会上,专家们对DeepSeek的各个方面进行了深入探讨。创始人梁文锋懂技术,是团队核心。DeepSeek因率先复现MoE、o1等成果获得好口碑,且在从preview到正式发布期间,长上下文能力提升显著。在算力方面,其注重合规,卡的数量相对较少。同时,DeepSeek聚焦智能本身,甚至放弃了多模态等方向,量化也被视为其商业模式之一。
在技术细节层面,DeepSeek带来诸多惊喜。它在推理层面无需做SFT,这一突破引发对新范式或架构的思考。此外,DeepSeek-R1展示了SFT在蒸馏中的好处,以及数据生成和利用的新方式。在数据标注上,DeepSeek极为重视,这也是模型效率提升的关键因素之一。
关于蒸馏技术,虽然它能提升小模型性能,但也存在模型diversity下降等问题。而在Process Reward方面,过程监督虽有潜力,但也面临reward hack等挑战。
从行业格局来看,模型在2025年将发生分化,新架构、RL潜力挖掘以及agent应用等方向值得关注。DeepSeek的出现,还让大家对英伟达和OpenAI的500B叙事产生质疑。
在开发者迁移、二级市场影响以及开源闭源之争等方面,DeepSeek也都带来了新的变化。它让外界看到中国AI的强大实力,未来,AI各实验室的竞争或许更多体现在愿景规划上。
© 版权声明
文章版权归作者所有,未经允许请勿转载。