DeepSeek开源周:V3/R1推理系统揭秘与成本收入分析

AI快讯3天前发布 niko
6 0
AiPPT - 一键生成ppt

在技术发展的进程中,DeepSeek的开源周带来了新的亮点。其在开源第六天,不仅公开了DeepSeek-V3/R1推理系统的技术细节,还分享了每日成本与理论收入情况。

DeepSeek统计了2月27日24点到2月28日24点的数据,发现每日总成本为87072美元(折合人民币约63万元)。若所有Token都以DeepSeek-R1的价格计费,每日总收入将达562027美元(折合人民币约409万元),成本利润率高达545%,理论上每日净赚474955美元(折合人民币约346万元)。然而实际收入却大幅下降,原因包括DeepSeek-V3定价低于R1、网页端和应用程序免费、非高峰时段有夜间折扣等。

DeepSeek的推理系统采用了跨节点的专家并行(EP)技术,旨在实现更高的吞吐量和更低的延迟。但EP也增加了系统复杂性,为此,DeepSeek通过多种策略应对。

一方面,大规模跨节点专家并行(EP)成为必要。由于模型的高度稀疏性,需要很大的overall batchsize来实现更大的吞吐和更低的延时。在Prefill阶段,采用路由专家EP32、MLA和共享专家DP32等策略;Decode阶段则采用路由专家EP144、MLA和共享专家DP144等策略。

另一方面,计算-通信重叠策略有效提高了整体吞吐。在prefill阶段,通过双batch重叠掩盖通信开销;decode阶段,将attention部分拆成两个stage,以实现计算和通信的重叠。

此外,实现最佳负载均衡至关重要。不同阶段存在不同的负载均衡问题,如Prefill Load Balancer需关注core-attention计算量和dispatch发送量;Decode LoadBalancer要平衡KVCache占用量和请求数量;专家并行负载均衡器则要确保每个GPU上的专家计算量均衡。

发布一小时,GitHub Star数已超过5600,评论区网友也有诸多讨论。同时,智东西参与主办的2025中国生成式AI大会(北京站)将于4月1 -2日举办,将围绕多个重要议题展开讨论。

© 版权声明
智谱清言 - 国产最强AI模型