近期,SemiAnalysis发布报告,深入剖析了DeepSeek事件。在全球范围内,DeepSeek引发的关注浪潮高涨,其日访问量超越了Claude、Perplexity,甚至超过Gemini。
DeepSeek由High-Flyer分拆而来,这家中国对冲基金很早就意识到人工智能的潜力,在出口限制实施前储备了大量GPU。分拆后的DeepSeek专注于提升人工智能能力,如今已发展成一项协同事业。
关于DeepSeek的GPU持有量,存在诸多猜测。实际上,他们拥有约10000个H800和10000个H100,还订购了更多H20。这些GPU由High-Flyer和DeepSeek共享,用于多种任务。
在技术创新方面,DeepSeekV3大规模应用多令牌预测(MTP)技术,增加注意力模块,提升了训练性能。同时,它是混合专家模型,通过“门控网络”高效路由令牌,降低推理成本。
多头潜在注意力机制(MLA)是DeepSeek的关键创新,能大幅减少KV缓存,降低推理成本。这一创新引起美国许多实验室关注,对人工智能行业定价结构产生影响。
从成本与性能角度看,预训练成本只是模型总成本的一部分。深度求索在硬件上投入巨大,开发创新架构耗费大量资源。其V3和R1模型在性能上表现出色,但R1在基准测试方面存在争议。
在市场竞争中,谷歌的推理模型Gemini Flash 2.0 Thinking与R1相当,价格更低,但未得到过多关注。
从利润率影响来看,R1以更低价格实现相当能力,影响了市场定价机制。深度求索可能在补贴推理利润率,以获取市场份额。
出口管制对DeepSeek发展产生重要影响。尽管存在宽限期使其能囤积芯片,但未来H20可能被禁,其获取芯片能力将受限。
总的来说,DeepSeek在技术上取得显著成就,但其发展也面临诸多挑战,未来走向值得关注。