近期,一家中国初创AI公司DeepSeek引发行业震动。其开发的DeepSeek-R1模型系列在大模型排行榜ChatbotArena上成绩斐然,基准测试排名升至全类别第三,与Chat[GPT-4](https://ai-kit.cn/sites/1023.html)o最新版不相上下,在风格控制类模型分类中更是与OpenAI-o1并列头名。
DeepSeek的成功,关键在于其极致的效率革命。它仅用不到OpenAI十分之一的成本,就实现了相当的模型性能。据了解,V3模型训练总计只需278.8万GPU小时,在2048块H800集群上训练约2个月,成本仅557.6万美金。有传言称,R1模型训练成本与之相近,但参数规模达到6710亿。相比之下,GPT-4o模型训练成本约1亿美元,MetaLlama 3系列模型训练需要多达3930万H100 GPU小时,而DeepSeek的训练成本仅约为Llama 3的7%。
这种颠覆性的成本优势,得益于其自研的MLA和MOE架构,大幅降低了模型训练成本。此外,R1模型采用数据蒸馏技术,通过算法和策略对原始数据去噪、降维、提炼,提升了训练效率。这一技术如同让DeepSeek找到了高效学习方法,而OpenAI还在依赖传统“题海战术”。值得一提的是,OpenAI训练依赖人工,数据标注成本高昂,且近期指责DeepSeek“违规复制”却未提供证据。
在行业发展历程中,半导体遵循摩尔定律,AGI行业则依据Scaling Law演进。ScalingLaw认为模型性能与规模呈正相关,即参数越多、计算资源越大,模型性能越强。然而,DeepSeek的出现打破了这一定律,至少让其边际效益放缓。这意味着人工智能产业不再单纯追求大规模算力投入,而是转向模型架构和工程优化结合的创新阶段。
DeepSeek带来的“范式转移”影响深远,不仅打破了科技大厂的技术壁垒和重资本比拼惯例,还促使OpenAI紧急调整策略,上线新一代推理模型o3系列的mini版本并免费开放基础功能。同时,这也给互联网大厂的AI投资热潮泼了冷水。尽管如此,目前关于是否应彻底放弃算力建设出现了不同声音。
从实际情况看,我国算力基础设施仍处于初步搭建阶段,远未过剩。一方面,DeepSeek用户量激增,其深度思考和联网搜索功能出现宕机,移动应用下载量惊人。另一方面,DeepSeek功能尚未覆盖图片、音频和视频生成领域,未来拓展将大幅增加对算力和训练成本的需求。其他大模型公司也面临类似情况,随着业务发展,算力扩张不可避免。
目前,算力建设已成为国家级战略。我国算力基础设施规模占全球26%,位列第二。工信部数据显示,截至2024年9月,我国算力总规模达246EFLOPS,在用算力中心机架总规模超830万标准机架。相关规划指出,到2025年,我国算力规模将达300EFLOPS,智能算力占比要达到35%。“东数西算”工程已取得初步成果,国内智算中心建设蓬勃发展,国产芯片厂商也迎来新机遇。
DeepSeek的成功,体现了中国在资源有限条件下实现创新的智慧与韧性。在中美AI竞争中,中国企业以颠覆者姿态出现,虽令人惊喜,但仍需保持冷静和谦逊。算力基础设施作为人工智能时代的重要资源,其重要性不言而喻。