DeepSeek-R1 对比测试：低成本下的卓越性能与挑战

AI快讯1年前 (2025)发布 niko

近期，DeepSeek 迎来发展高光时刻，日活用户突破 2000 万，并与中国移动、华为等众多企业达成合作。在 AI行业竞争激烈的当下，众多企业为技术领先投入大量资金购置数据和算力芯片，打造万卡集群，而 DeepSeek 走出了“花小钱办大事”的独特路线，其推出的 V3模型训练成本仅 557.6 万美元，基于此的 R1 模型更是号称能力不输 OpenAI 的 o1 大模型。那么，DeepSeek-R1 实际表现究竟如何？

为此，小雷将 DeepSeek-R1 与豆包云雀、Kimi-k1.5、文心 3.5、通义千问 2.5 这几款国内知名的 AI大模型进行对比测试，选取了日常使用较多的内容分析、创意写作、数学推理三个项目。这些参与测试的模型均可免费使用。

在内容分析测试中，小雷挑选《2024年轻人生活方式及营销趋势》文档，检验各模型总结重点内容的能力。结果显示，除通义千问表现不佳，总结简略且信息缺失严重外，其他模型均有不错表现。其中，豆包和Kimi 不仅总结出 2024 年十大趋势，还对 2025 年生活方式趋势展望进行归类，Kimi 更是强调了年轻消费群体的重要性；文心一言中规中矩，总结出2024 年十大趋势却忽略 2025 年展望。而作为主角的 DeepSeek-R1表现更为突出，在每个趋势下加入数据或产品事例，增强内容可靠性，远超其他四款模型，进入了更高层次。

创意写作测试方面，2 月 5 日阅文集团和中文在线宣布接入 DeepSeek-R1，引发 AI 是否会取代网文作者的讨论。小雷要求各模型以古龙风格创作一篇5000 字到 10000 字的武侠小说，并给出大纲。此测试可发挥空间大，各模型差距和风格差异明显。结果上，在取名环节，豆包和 Kimi的取名风格与古龙不符；内容上，通义千问表现倒数，缺乏细节和转折，Kimi 细节较丰富但仅围绕大纲人物创作。而DeepSeek-R1、文心一言、豆包生成内容质量更好，人物、招式、门派齐全，剧情有转折且丰富了细节。例如，DeepSeek-R1撰写的小说中两位主人公因女人反目成仇，为续写埋下伏笔。整体来看，本轮测试 DeepSeek-R1依然领先，其创作有情感纠葛、剧情转折，结尾颇有古龙遗风。

数学推理测试一直是 AI 大模型的难题。小雷选用 2024 年高考一卷第十四题进行测试，站在人类角度难度不高，但对 AI大模型来说却困难重重。DeepSeek-R1、豆包、Kimi、文心一言、通义千问给出的答案均错误，而 OpenAI 的 o1、o3 mini、[GPT-4](https://ai-kit.cn/sites/1023.html)o三款大模型虽算出正确答案，但细节存在问题。数学推理仍是当前 AI 大模型难以攻克的难关，DeepSeek-R1在本轮测试中也未能拉开与其他模型的差距。

回顾 2024 年 12 月，DeepSeek-V3 刚上线时，在内容总结、文字生成方面能媲美豆包、Kimi，但功能丰富性不足。仅一个多月，基于 V3 的R1 大模型就实现质的飞跃，在内容总结、文字生成方面领先众多知名模型。更重要的是，DeepSeek-R1 训练成本约 600 万美元，远低于GPT-4，预计只有 GPT-5 的 1/200 甚至更低。

因 DeepSeek-R1 的冲击，NVIDIA 股价下跌。同时，DeepSeek 凭借 R1 的卓越表现成为 AI行业焦点，与众多行业巨头合作，华为也让小艺接入 DeepSeek-R1。然而，大量用户涌入导致 DeepSeek 算力不足，官网服务器繁忙，API调用充值入口关闭。若想留住用户，增加算力规模、提升用户体验刻不容缓。DeepSeek 以低成本训练出优秀模型，为行业指明方向，其他 AI 企业也将紧跟步伐。

# AI快讯

文章版权归作者所有，未经允许请勿转载。