DeepSeek AI推出Smallpond：革新分布式数据处理的轻量级框架

AI快讯1年前 (2025)发布 niko

在数据集规模持续扩张、分布式处理复杂度攀升的当下，现代数据工作流遭遇严峻挑战。众多组织察觉到，传统数据处理系统在处理时长、内存局限以及分布式任务管理等方面存在明显不足。在此背景下，数据科学家和工程师耗费大量精力于系统维护，无暇从数据中挖掘宝贵见解，市场急需一款兼顾简化流程与高性能的工具。

Smallpond应运而生 。DeepSeekAI发布的这一轻量级数据处理框架，依托DuckDB和3FS搭建。其目标是将DuckDB进程内的高效SQL分析拓展至分布式环境，借助3FS这一针对现代SSD和RDMA网络优化的高性能分布式文件系统，为大型数据集处理提供实用方案，规避长时间运行服务的复杂难题与高额基础设施成本。

设计灵活且易安装。Smallpond框架设计简约且模块化，与Python3.8至3.12版本兼容，用户通过Pip能快速完成安装，随即开启数据处理工作。该框架一大特色是支持手动数据分区，用户可依据文件数量、行数或特定列的哈希值进行分区，这种灵活性让用户能结合自身数据和基础设施情况定制处理方式。

技术融合优势凸显。在技术层面，Smallpond充分发挥DuckDB的原生SQL查询性能，还与Ray集成实现分布式计算节点的并行处理。这一结合简化了扩展操作，保障工作负载在多个节点间高效处理。而且，避免持久化服务降低了分布式系统常见的运营成本。

性能测试成绩优异。在GraySort基准测试中，Smallpond表现亮眼，仅耗时30多分钟就完成对110.5TiB数据的排序，平均吞吐量达每分钟3.66TiB。这些性能指标表明，它能满足处理从数TB到PB级别数据的组织需求。作为开源项目，Smallpond欢迎用户和开发者参与，以实现进一步优化和适配多样使用场景。

Smallpond为分布式数据处理带来新突破，将DuckDB的高效性拓展到分布式环境，融合3FS的高吞吐能力，为数据科学家和工程师提供实用工具。无论处理小型数据集还是拓展至PB级操作，它都是有效且易接入的框架。项目链接：https://github.com/deepseek-ai/smallpond?tab=readme-ov-file

# AI快讯

文章版权归作者所有，未经允许请勿转载。