DeepSeek-V3 新版本上线 昨夜,参数量达 685B 的 DeepSeek-V3 新版本静悄悄地登场。新版本编号为DeepSeek-V3-0324,相较于上一版本 6710 亿的参数,此次参数增幅不大。从发布节奏推测,它很可能是 DeepSeek-R2的基础架构,按照产品发布习惯,DeepSeek-R2 极有可能在几周后亮相。
性能显著提升 升级后的 V3 在代码和数学推理能力方面有了突出进步。在代码领域,表现让众多网友眼前一亮。从一个球在超立方体弹跳的 Python脚本就能看出其代码性能的优化,甚至在代码能力上可与 Claude 3.7 一较高下,解锁了 Claude 3.7 Sonnet 的很多玩法。
开源协议变更 DeepSeek V3 的一大亮点是采用了 MIT开源协议,上一版本还是自定义许可证。这一改变意味着可以自由修改、分发模型,还能支持模型蒸馏以及商业化应用。
消费级设备运行 685B 的大模型也能在消费级设备上运行。苹果机器学习工程师 Awni Hannun 基于 MLX 框架和 4-bit 量化,在512GB M3 Ultra 实现了超过 20 token/s 的运行速度,并且通过这种量化方式将模型磁盘占用空间减少到 352GB。
网友实测表现佳 虽 DeepSeek 未公布新版模型系统卡,但网友已展开多维度测评。根据网友 Xeophon 自测,DeepSeek-V3-0324性能出色,击败 Claude 3.5 Sonnet。在多项测试中,如 Aider 多语言基准测试、KCORES大模型竞技场等,它都取得了不错成绩,甚至能解决一些此前只有推理模型能处理的问题。
前端开发能力强 多位网友实测展示了 DeepSeek-V3-0324 在前端开发方面的实力。网友「DeepanshuSharma」用其创建新网站编写 800 多行代码无差错,「Risphere」认为它在前端开发超越 o1-pro 和 GPT-4.5,PetriKuittinen 用简短提示词制作出精美的响应式网页。
或改变全球 AI 格局 DeepSeek-V3 的上线符合其发布节奏,为 R2 上线预热。先进开源推理模型若免费提供,将使高级 AI系统更普及。DeepSeek-R2 若延续发展路线,可能挑战 GPT-5,打破 OpenAI 垄断,重塑全球 AI 格局,缩小中美 AI 差异 。