DeepSeek V3模型引发行业变革，对英伟达及芯片市场影响几何？

近期，DeepSeek的V3模型凭借仅557.6万的训练成本，实现与OpenAI O1推理模型相近性能，在全球AI领域引发广泛关注。

从技术创新角度看，DeepSeek V3模型有着诸多亮点。它采用GRPO（分组相对策略优化）方法，在基础模型能力提升上效果显著。例如，在R1Zero未经过强化学习时，每生成100条内容就有约10%的成功率，这一数据有力证明了其基础模型的强大能力。同时，模型在架构效率上进行了优化，像混合专家网络（MoE）的负载均衡优化，以及AttentionLayer上对键值缓存（KV Cache）的节省，都为提升模型性能奠定基础。此外，多头潜在注意力机制（Multihead LatentAttention）的运用，也是其技术创新的一大体现，该机制Meta之前虽有相关研究，但DeepSeek在此基础上有了新的发展。

在对英伟达的影响方面，DeepSeekV3模型带来了利弊交织的局面。英伟达有两大核心壁垒，即Infiniband（芯片互联技术）和CUDA（图形计算统一架构）。DeepSeek的出现对这两大壁垒的溢价产生了冲击。MOE的优化削弱了英伟达互联技术的重要性，不同的expert可放在不同计算卡上，部分expert还能进入休眠状态，降低了对芯片互联的需求。在CUDA方面，DeepSeek团队证明可直接调用更底层的PTX进行优化，这虽未完全绕过CUDA生态，但为其他团队提供了新的思路和可能性，使得未来在运行模型时，对英伟达显卡的依赖度可能降低。不过，从长远看，英伟达的壁垒依然较为坚挺，CUDA作为通用的GPU调用系统，其优势难以在短期内被超越。

DeepSeek选择开源，对行业生态产生了积极且深远的影响。这一举措为众多开发者带来信心，降低了AI应用的准入门槛。此前，因OpenAI等闭源模型的存在，许多公司和开发者在开展AI应用开发时心存顾虑。如今，DeepSeek开源使得开发者有了更多选择和更大的信心去尝试。随着更多人使用DeepSeek模型，其收集数据的速度加快，有助于模型进一步优化和提升性能，形成良好的生态循环。

在API价格方面，DeepSeek通过从上到下的整体优化，包括PTX调用、GPU到MOE架构以及LowBalance等方面，成功降低了API成本。其每百万输入输出Token的价格相较于OpenAI的o1有大幅下降，原因在于它降低了对芯片的要求，可使用相对低端的芯片甚至国内的一些卡来运行模型，从而有效降低了成本。

展望未来，DeepSeek的发展充满变数。其数据构成和底层创新细节的披露程度，将影响其他团队的复现和进一步研究。同时，它能否持续保持创新能力，不断挑战OpenAI等行业领先者，也备受关注。若DeepSeek能持续进步，将可能改变芯片和基础设施领域的格局，为行业带来更多创新与发展的机遇。

# AI快讯

文章版权归作者所有，未经允许请勿转载。