近期,DeepSeek成为众多目光聚焦的焦点。知名投资人朱啸虎在体验后态度转变,直言“DeepSeek快让我相信AGI了”。在接受腾讯新闻采访时,他多次惊叹于DeepSeek在内容生成方面展现出的优美与深度。

不仅朱啸虎,作家兼脱口秀演员李诞也对DeepSeek进行了点评。在DeepSeek模仿梁文锋口吻回复冯骥的“国运论”造假文章出现后,李诞称文章透露出“科技抒情散文诗”般的DeepSeek味道。
DeepSeek让更多普通人首次感受到了AI对话产品的易用性。此前,使用ChatGPT等产品需掌握复杂的Prompt技巧,而在DeepSeek上,用户用简单自然语言就能获得准确且拟人化的答复,还因此收获“赛博嘴替”的美名。其用户数据飙涨,上线20天DAU便突破2000万,距国内日活第一的AI对话应用仅一步之遥。
尽管DeepSeek坚持开源,但在R1模型上未公开预训练语料,引发外界好奇。对此,DeepSeek从风格化数据蒸馏体系、动态风格迁移架构、对抗式强化学习框架等维度做出解释。其他大模型认为,DeepSeek可能在语料选择上多用了文学小说素材,朱啸虎也有类似揣测。

在文风对比上,国内大模型创业者李振表示,其他国内大模型在文学向标签上不如DeepSeek多,他推测国内其他大模型文学语言在语料库中占比10%-20%,而DeepSeek可能高达40%。
除数据来源,数据使用方式也影响内容生成效果。《生成式人工智能》作者丁磊博士提到,DeepSeek R1模型出现“ahamoment”顿悟时刻,即模型学会反思,这体现了其推理能力的增长,也证明强化学习能带来意想不到的结果。
DeepSeek的成功离不开高人才密度与高自主性。恒业资本创始合伙人江一认为,部分大模型公司员工自主性不足,产品研发靶向性强,生成效果中规中矩,而DeepSeek则不同。
DeepSeek构建了独特的文学增强型数据生态,将自然语言生成转化为可控风格系统,构建风格表征的数学建模。为实现这一目标,其在数据标签上做得更细更多样化。
去年3月,DeepSeek研究员在英伟达GTC2024大会上提到,构建了跨学科专家团队,对不同人群价值观公约数进行分类学研究,构建了三级标签的价值观分类体系。丁磊博士表示,DeepSeek在数据收集、标注和质量方面有独到之处。
R1模型使用数据蒸馏技术生成的高质量数据,提升了训练效率,这是其凭借小参数量实现比肩OpenAIo1模型性能的关键。丁磊博士解释,模型参数量与效果是非线性关系,数据清洗能力很重要,谷歌就是前车之鉴,而部分大模型公司存在数据注水问题。
李振认为,DeepSeek在训练范式上有代际差距优势,可能加入对抗式数据清洗环节,且内部进行对抗式测试,每轮训练后有独立测试团队进行安全测试并指导数据迭代和模型训练。
不同训练方式导致大模型文风不同,R1模型加入RL后,强化学习训练次数也影响文风。李振介绍,DeepSeek的PPO迭代轮次在50到80,国内其他大模型约为20,这是因为各公司对产品功能押注重点不同。
DeepSeek生成内容不仅文风华丽优美,还具备高事实准确性。丁磊博士认为,一是模型自我进化,学会通过推理计算解决复杂任务;二是“ahamoment”顿悟时刻,模型学会“反思”。
基于R1模型,DeepSeek推出R1-Zero模型,将RL直接应用于基础模型,无需依赖SFT和已标注数据,这是解决数据训练难题的尝试,受到Perplexity公司CEO的高度评价。
在R1模型强化学习推理阶段,出现“ahamoment”顿悟时刻,这得益于特殊奖励机制。DeepSeek在PPO算法下采用基于规则的奖励函数,根据输出格式和正确性分配奖励。
DeepSeek对人才的重视和培养是其成功的关键。江一认为,高人才密度与高自主性相结合,使DeepSeek产生多样性涌现,选定华丽优美文风。梁文锋介绍,DeepSeek管理自下而上,人员对卡和人的调动不设上限。
去年5月,DeepSeekV2模型的MLA架构就源于一位年轻研究员的兴趣。当时,该研究员总结Attention架构变迁规律后设计替代方案,DeepSeek组建专项团队将其落地。梁文锋认为年轻人更具创新信心,所以DeepSeek内部多为年轻人才。
然而,DeepSeek也存在一些问题。内容从业者王旭指出,其生成内容虽优美但有语法错误,且幻觉现象依然存在。以某虚假文章为例,其中内容与梁文锋履历不符,这提醒人们要提高辨别AI内容的能力。