DeepSeek：突破谣言，展现AI创新实力

在当下的AI热潮中，DeepSeek成为备受瞩目的焦点，尤其在其开源并发布推理模型R1后，引发广泛关注与诸多争议。

随着DeepSeek的爆火，各种谣言甚嚣尘上。Stability AI曾经的研究主管Tanishq MathewAbraham以业内人士身份，对围绕DeepSeek的谣言进行有力反驳，并阐述其优势。

谣言一称DeepSeek是突然冒出的中国公司。实则到2025年1月，多数生成式AI研究人员已对其有所耳闻，且在完整版发布前几个月就发布了R1预览。DeepSeek首个开源模型DeepSeek-Coder于2023年11月发布，一年内持续推出成果直至R1，进步速度合理，并非一夜成功。

谣言二质疑模型成本非600万美元。DeepSeek-V3论文提及的成本在计算上存在不准确性，因未包含强化学习训练额外成本。众多分析基于多种因素得出类似估计，且DeepSeek成本基于当前市场价格估计GPU成本，实际GPU集群购入成本可能更低，同时还有实验成本、研究员薪资等未被报告，质疑其低成本运营性质是不公平的。

谣言三认为美国AGI公司浪费钱、看跌英伟达。尽管DeepSeek训练效率高，但更多计算资源并非坏事。Scalinglaws表明增加计算能力可提升性能，众多AGI公司押注此规律以实现AGI和ASI，获取更多计算能力是合理行动，DeepSeek并非看跌英伟达的理由。

谣言四称DeepSeek无有意义创新。实际上，DeepSeek在语言模型设计和训练方法上有诸多创新。如开发多头潜注意力 (MLA)，这是MHA机制变体，节省内存且性能更佳；展示简单强化学习管道实现类似o1结果，开发更高效的GRPO算法；设计DualPipe技术，提升多GPU训练效率。并且，DeepSeek开源这些创新，让业界受益。

谣言五指责DeepSeek“汲取”ChatGPT知识。“蒸馏”概念在此使用不当，即便假设用ChatGPT生成文本训练，OpenAI也无证据。且使用其他来源的ChatGPT生成数据未被禁止，DeepSeek的成就不能因此被忽视。

在AI领域竞争格局中，中国人一直具备竞争力，DeepSeek的出现使其更无法被忽视。虽然美国一些公司有更好模型且将获充足计算能力保持领先，但中国也将加大投入，竞争日益激烈，而DeepSeek的R1无疑是令人印象深刻的模型。

# AI快讯

文章版权归作者所有，未经允许请勿转载。