DeepSeek-V3-Base开源:编程能力激增近31%
混合专家模型DeepSeek-V3-Base的发布
到了2024年底,一家致力于探索通用人工智能(AGI)本质的公司,DeepSeek AI,开源了他們最新的混合专家(MoE)语言模型DeepSeek-V3-Base。遗憾的是,详细的模型规格卡尚未公布。
– HuggingFace下载地址:DeepSeek-V3-Base
DeepSeek-V3-Base模型概述
DeepSeek-V3-Base采用了685B参数的MoE架构,包含256个专家,并使用了sigmoid路由方式,并在每次选择中取前8个专家(topk=8)。
– 图源:X@arankomatsuzaki
众多专家的应用使得模型在处理任何给定输入时,只有小部分专家处于活跃状态,这使得模型具有很高的稀疏性。
– 图源:X@Rohan Paul
DeepSeek-V3-Base性能反馈
从用户反馈来看,API和聊天界面已经升级为DeepSeek-V3模型版本。
– 图源:X@ruben_kostard
– 图源:X@Micadep
性能评测:DeepSeek-V3-Base的表现如何?
想了解其性能,我们可以借助Aider多语言编程测评结果。
Aider多语言基准测试要求大语言模型(LLM)编辑源文件来完成源自Exercism的225道编程题,这些题目覆盖了C++、Go、Java、JavaScript、Python和Rust等众多编程语言。这225道精心挑选的编程题为LLM提供了相当大的编程能力挑战。
该基准旨在衡量LLM在流行编程语言中的编码能力,以及它们处理全新代码集成的能力。
各模型比较结果
通过下一次表的形式,可以看到DeepSeek-V3-Base模型仅次于OpenAI o1-2024-12-17 (high),并超越了如claude-3.5-sonnet-20241022、Gemini-Exp-1206、o1-mini-2024-09-12、gemini-2.0-flash-exp等竞品模型以及其前代DeepSeek Chat V2.5。
与V2.5(17.8%)相比,V3编程性能提升至48.4%,实现了近31%的增长。
– 图源:reddit@homeworkkun
LiveBench基准测试结果
DeepSeek-V3的LiveBench基准测试结果也疑似流出。结果显示,模型在整体、推理、编程、数学、数据分析、语言和IF评分方面均是非常具有竞争力的,并超过了如gemini-2.0-flash-exp和Claude 3.5 Sonnet等模型。
DeepSeek-V3版本变化总结
根据HuggingFace上的GPU Poor数据科学家Vaibhav (VB) Srivastav所总结,v3相较于v2的重要差异主要包括:
– vocab_size:v2: 102400,v3: 129280
– hidden_size:v2: 4096,v3: 7168
– intermediate_size:v2: 11008,v3: 18432
– 隐藏层数量:v2:30,v3:61
– 注意力头数量:v2:32,v3:128
– 最大位置嵌入:v2:2048,v3:4096
v3似乎是对v2的增强版。
– 图源:X@reach_vb
特别值得注意的是,在模型评分函数上,v3采用了sigmoid函数,而v2则采用的是softmax函数。
用户评价与未来展望
众多网友对这一开源模型的崛起表示认可。人们认为,Claude 3.5终于迎来了真正的竞争对手,DeepSeek-V3甚至在某种程度上可以取代Claude 3.5。开源模型正在以惊人的速度追赶SOTA,且没有放缓的迹象。2025年将成为人工智能领域的重要一年。