DeepSeek如何以低成本实现大模型性能突破

近期，一家中国初创AI公司DeepSeek引发行业震动。其开发的DeepSeek-R1模型系列在大模型排行榜ChatbotArena上成绩斐然，基准测试排名升至全类别第三，与Chat[GPT-4](https://ai-kit.cn/sites/1023.html)o最新版不相上下，在风格控制类模型分类中更是与OpenAI-o1并列头名。

DeepSeek的成功，关键在于其极致的效率革命。它仅用不到OpenAI十分之一的成本，就实现了相当的模型性能。据了解，V3模型训练总计只需278.8万GPU小时，在2048块H800集群上训练约2个月，成本仅557.6万美金。有传言称，R1模型训练成本与之相近，但参数规模达到6710亿。相比之下，GPT-4o模型训练成本约1亿美元，MetaLlama 3系列模型训练需要多达3930万H100 GPU小时，而DeepSeek的训练成本仅约为Llama 3的7%。

这种颠覆性的成本优势，得益于其自研的MLA和MOE架构，大幅降低了模型训练成本。此外，R1模型采用数据蒸馏技术，通过算法和策略对原始数据去噪、降维、提炼，提升了训练效率。这一技术如同让DeepSeek找到了高效学习方法，而OpenAI还在依赖传统“题海战术”。值得一提的是，OpenAI训练依赖人工，数据标注成本高昂，且近期指责DeepSeek“违规复制”却未提供证据。

在行业发展历程中，半导体遵循摩尔定律，AGI行业则依据Scaling Law演进。ScalingLaw认为模型性能与规模呈正相关，即参数越多、计算资源越大，模型性能越强。然而，DeepSeek的出现打破了这一定律，至少让其边际效益放缓。这意味着人工智能产业不再单纯追求大规模算力投入，而是转向模型架构和工程优化结合的创新阶段。

DeepSeek带来的“范式转移”影响深远，不仅打破了科技大厂的技术壁垒和重资本比拼惯例，还促使OpenAI紧急调整策略，上线新一代推理模型o3系列的mini版本并免费开放基础功能。同时，这也给互联网大厂的AI投资热潮泼了冷水。尽管如此，目前关于是否应彻底放弃算力建设出现了不同声音。

从实际情况看，我国算力基础设施仍处于初步搭建阶段，远未过剩。一方面，DeepSeek用户量激增，其深度思考和联网搜索功能出现宕机，移动应用下载量惊人。另一方面，DeepSeek功能尚未覆盖图片、音频和视频生成领域，未来拓展将大幅增加对算力和训练成本的需求。其他大模型公司也面临类似情况，随着业务发展，算力扩张不可避免。

目前，算力建设已成为国家级战略。我国算力基础设施规模占全球26%，位列第二。工信部数据显示，截至2024年9月，我国算力总规模达246EFLOPS，在用算力中心机架总规模超830万标准机架。相关规划指出，到2025年，我国算力规模将达300EFLOPS，智能算力占比要达到35%。“东数西算”工程已取得初步成果，国内智算中心建设蓬勃发展，国产芯片厂商也迎来新机遇。

DeepSeek的成功，体现了中国在资源有限条件下实现创新的智慧与韧性。在中美AI竞争中，中国企业以颠覆者姿态出现，虽令人惊喜，但仍需保持冷静和谦逊。算力基础设施作为人工智能时代的重要资源，其重要性不言而喻。

# AI快讯

文章版权归作者所有，未经允许请勿转载。