近期,DeepSeek 迎来发展高光时刻,日活用户突破 2000 万,并与中国移动、华为等众多企业达成合作。在 AI行业竞争激烈的当下,众多企业为技术领先投入大量资金购置数据和算力芯片,打造万卡集群,而 DeepSeek 走出了“花小钱办大事”的独特路线,其推出的 V3模型训练成本仅 557.6 万美元,基于此的 R1 模型更是号称能力不输 OpenAI 的 o1 大模型。那么,DeepSeek-R1 实际表现究竟如何?
为此,小雷将 DeepSeek-R1 与豆包云雀、Kimi-k1.5、文心 3.5、通义千问 2.5 这几款国内知名的 AI大模型进行对比测试,选取了日常使用较多的内容分析、创意写作、数学推理三个项目。这些参与测试的模型均可免费使用。
在内容分析测试中,小雷挑选《2024年轻人生活方式及营销趋势》文档,检验各模型总结重点内容的能力。结果显示,除通义千问表现不佳,总结简略且信息缺失严重外,其他模型均有不错表现。其中,豆包和Kimi 不仅总结出 2024 年十大趋势,还对 2025 年生活方式趋势展望进行归类,Kimi 更是强调了年轻消费群体的重要性;文心一言中规中矩,总结出2024 年十大趋势却忽略 2025 年展望。而作为主角的 DeepSeek-R1表现更为突出,在每个趋势下加入数据或产品事例,增强内容可靠性,远超其他四款模型,进入了更高层次。
创意写作测试方面,2 月 5 日阅文集团和中文在线宣布接入 DeepSeek-R1,引发 AI 是否会取代网文作者的讨论。小雷要求各模型以古龙风格创作一篇5000 字到 10000 字的武侠小说,并给出大纲。此测试可发挥空间大,各模型差距和风格差异明显。结果上,在取名环节,豆包和 Kimi的取名风格与古龙不符;内容上,通义千问表现倒数,缺乏细节和转折,Kimi 细节较丰富但仅围绕大纲人物创作。而DeepSeek-R1、文心一言、豆包生成内容质量更好,人物、招式、门派齐全,剧情有转折且丰富了细节。例如,DeepSeek-R1撰写的小说中两位主人公因女人反目成仇,为续写埋下伏笔。整体来看,本轮测试 DeepSeek-R1依然领先,其创作有情感纠葛、剧情转折,结尾颇有古龙遗风。
数学推理测试一直是 AI 大模型的难题。小雷选用 2024 年高考一卷第十四题进行测试,站在人类角度难度不高,但对 AI大模型来说却困难重重。DeepSeek-R1、豆包、Kimi、文心一言、通义千问给出的答案均错误,而 OpenAI 的 o1、o3 mini、[GPT-4](https://ai-kit.cn/sites/1023.html)o三款大模型虽算出正确答案,但细节存在问题。数学推理仍是当前 AI 大模型难以攻克的难关,DeepSeek-R1在本轮测试中也未能拉开与其他模型的差距。
回顾 2024 年 12 月,DeepSeek-V3 刚上线时,在内容总结、文字生成方面能媲美豆包、Kimi,但功能丰富性不足。仅一个多月,基于 V3 的R1 大模型就实现质的飞跃,在内容总结、文字生成方面领先众多知名模型。更重要的是,DeepSeek-R1 训练成本约 600 万美元,远低于GPT-4,预计只有 GPT-5 的 1/200 甚至更低。
因 DeepSeek-R1 的冲击,NVIDIA 股价下跌。同时,DeepSeek 凭借 R1 的卓越表现成为 AI行业焦点,与众多行业巨头合作,华为也让小艺接入 DeepSeek-R1。然而,大量用户涌入导致 DeepSeek 算力不足,官网服务器繁忙,API调用充值入口关闭。若想留住用户,增加算力规模、提升用户体验刻不容缓。DeepSeek 以低成本训练出优秀模型,为行业指明方向,其他 AI 企业也将紧跟步伐。