DeepSeek开源周：V3/R1推理系统揭秘与成本收入分析

AI快讯1年前 (2025)发布 niko

在技术发展的进程中，DeepSeek的开源周带来了新的亮点。其在开源第六天，不仅公开了DeepSeek-V3/R1推理系统的技术细节，还分享了每日成本与理论收入情况。

DeepSeek统计了2月27日24点到2月28日24点的数据，发现每日总成本为87072美元（折合人民币约63万元）。若所有Token都以DeepSeek-R1的价格计费，每日总收入将达562027美元（折合人民币约409万元），成本利润率高达545%，理论上每日净赚474955美元（折合人民币约346万元）。然而实际收入却大幅下降，原因包括DeepSeek-V3定价低于R1、网页端和应用程序免费、非高峰时段有夜间折扣等。

DeepSeek的推理系统采用了跨节点的专家并行（EP）技术，旨在实现更高的吞吐量和更低的延迟。但EP也增加了系统复杂性，为此，DeepSeek通过多种策略应对。

一方面，大规模跨节点专家并行（EP）成为必要。由于模型的高度稀疏性，需要很大的overall batchsize来实现更大的吞吐和更低的延时。在Prefill阶段，采用路由专家EP32、MLA和共享专家DP32等策略；Decode阶段则采用路由专家EP144、MLA和共享专家DP144等策略。

另一方面，计算-通信重叠策略有效提高了整体吞吐。在prefill阶段，通过双batch重叠掩盖通信开销；decode阶段，将attention部分拆成两个stage，以实现计算和通信的重叠。

此外，实现最佳负载均衡至关重要。不同阶段存在不同的负载均衡问题，如Prefill Load Balancer需关注core-attention计算量和dispatch发送量；Decode LoadBalancer要平衡KVCache占用量和请求数量；专家并行负载均衡器则要确保每个GPU上的专家计算量均衡。

发布一小时，GitHub Star数已超过5600，评论区网友也有诸多讨论。同时，智东西参与主办的2025中国生成式AI大会（北京站）将于4月1 -2日举办，将围绕多个重要议题展开讨论。

# AI快讯

文章版权归作者所有，未经允许请勿转载。