DeepSeek创新三重门：小天才、军团协同与原创思想

AI快讯1年前 (2025)发布 niko

作为一名在AI领域有着丰富经验的从业者，我在春节期间深入研究了DeepSeek的论文，其带来的震撼难以言表。DeepSeek的出现，颠覆了中美对创新的传统认知，背后隐藏着深层次的结构性能力与新范式。

DeepSeek的创新可概括为三重门。第一重门是小天才们的胜利。阅读DeepSeek的论文，大量原创研究成果令人惊叹。他们几乎重新设计了大模型训练的绝大部分关键组件，如MLA、GRPO、DeepSeekMoE等。这些创新单拿出来，很多都达到顶会最佳论文水平。

DeepSeek中的小天才式创新，是指给定约束，寻找最优解的能力。以其三个核心算法模块为例，MLA通过低秩压缩改造Attention模块，提升KVCache效率；DeepSeekMoE增加共享专家和细粒度专家，提升专家学习效果；GRPO去掉Value Model，引入Group-Relative作为baseline，提升训练效率。这种小天才式创新在DeepSeek文章中屡见不鲜，背后都有小天才的身影。

更重要的是，DeepSeek实现了小天才的规模化。在硅谷文化中，相信年轻人的创造力较为常见，但DeepSeek不仅证明中国能孕育硅谷型创新文化，还能将这种模式进一步规模化。毕竟，中国拥有众多富有创造力的年轻人。

创新的第二重门是华为式的军团平推。深度阅读DeepSeek的论文，尤其是V3，会发现它是一个从底层硬件到上层算法的复杂大系统，以优雅的顶层设计环环相扣，以大破大立的方式平推完成。

从模型迭代节奏来看，DeepSeek成立后迅速推出多个版本，提出众多创新方案。同时，它从基础设施搭建到硬件优化、模型算法创新，都进行了高度协同的优化。例如，构建集群、自研训练框架，针对传统算法问题设计新算法，还为硬件厂商提出下一代芯片设计方案。这种创新模式是中国擅长的，与硅谷文化中相对忽视的协同创新不同。

第三重门是原创（哲学性）思想。过去十年AI的创新源头，如Google的Transformer、DeepMind的AlphaZero、OpenAI的GPT，内核都是关于“学习”本质的哲学性思想。

DeepSeek虽可能尚未完全展现出原创（哲学性）创新，但从一些例子中能瞥见希望。例如，MLA的产生源于对Attention架构演进规律的总结；DeepSeek-Math文章分享了对后训练统一框架的认识；R1中对R1-Zero的探索，希望让大模型自我演进。这些都体现了无边界的好奇心和对创新的热爱。

一个跨过创新三重门的组织，需要思想性的领袖。也许未来，DeepSeek会出现全新思想，在其启发下，会有更多创新型组织产生，推动行业发展。

# AI快讯

文章版权归作者所有，未经允许请勿转载。