DeepSeek推新,分布式存储迎新纪元
在开源周落幕之时,DeepSeek这一中国AI领域的佼佼者,重磅推出专为现代算力场景打造的高性能并行文件系统3FS(Fire-Flyer FileSystem)与配套数据处理框架Smallpond。此套组合直面AI训练与推理的数据处理难题,凭借6.6TiB/s的集群吞吐量刷新行业纪录,让分布式存储技术迈进新的发展阶段。
创新架构,性能实现颠覆式提升
3FS借助去中心化架构与强一致性语义设计,在180节点集群里达成6.6TiB/s的聚合读取吞吐,单节点KVCache查找峰值突破40GiB/s。其在GraySort基准测试中表现出色,25节点时可达3.66TiB/min,相比传统方案有指数级增长。该系统深度优化SSD与RDMA网络特性,最大程度利用硬件带宽,为千卡级AI训练集群稳定输送数据。
全链路赋能,重构AI工作流场景
作为DeepSeekV3/R1版本的核心支撑,3FS已深度融入数据预处理、检查点存储、向量搜索及推理缓存等关键环节。共享存储层设计大幅降低分布式开发的复杂程度,强一致性保障了大规模并发操作的安全性。配套开源的Smallpond框架构建起轻量化PB级数据处理能力,依靠DuckDB实现“无服务化”数据工程,形成完整的生态闭环。
开源战略推进,助力AI基建发展
此次3FS与Smallpond的双重开源,延续DeepSeek的技术开放步伐。通过公开自身AI业务验证过的系统,DeepSeek推动行业突破数据密集型应用的存储限制。这一方案或会对Ceph、Lustre等传统分布式系统带来冲击,在大模型训练等场景开拓新范式。
开源地址
3FS:https://github.com/deepseek-ai/3FS
Smallpond:https://github.com/deepseek-ai/smallpond