DeepSeek的崛起：技术创新与行业影响

AI快讯1年前 (2025)发布 niko

近期，SemiAnalysis发布报告，深入剖析了DeepSeek事件。在全球范围内，DeepSeek引发的关注浪潮高涨，其日访问量超越了Claude、Perplexity，甚至超过Gemini。

DeepSeek由High-Flyer分拆而来，这家中国对冲基金很早就意识到人工智能的潜力，在出口限制实施前储备了大量GPU。分拆后的DeepSeek专注于提升人工智能能力，如今已发展成一项协同事业。

关于DeepSeek的GPU持有量，存在诸多猜测。实际上，他们拥有约10000个H800和10000个H100，还订购了更多H20。这些GPU由High-Flyer和DeepSeek共享，用于多种任务。

在技术创新方面，DeepSeekV3大规模应用多令牌预测（MTP）技术，增加注意力模块，提升了训练性能。同时，它是混合专家模型，通过“门控网络”高效路由令牌，降低推理成本。

多头潜在注意力机制（MLA）是DeepSeek的关键创新，能大幅减少KV缓存，降低推理成本。这一创新引起美国许多实验室关注，对人工智能行业定价结构产生影响。

从成本与性能角度看，预训练成本只是模型总成本的一部分。深度求索在硬件上投入巨大，开发创新架构耗费大量资源。其V3和R1模型在性能上表现出色，但R1在基准测试方面存在争议。

在市场竞争中，谷歌的推理模型Gemini Flash 2.0 Thinking与R1相当，价格更低，但未得到过多关注。

从利润率影响来看，R1以更低价格实现相当能力，影响了市场定价机制。深度求索可能在补贴推理利润率，以获取市场份额。

出口管制对DeepSeek发展产生重要影响。尽管存在宽限期使其能囤积芯片，但未来H20可能被禁，其获取芯片能力将受限。

总的来说，DeepSeek在技术上取得显著成就，但其发展也面临诸多挑战，未来走向值得关注。

文章版权归作者所有，未经允许请勿转载。