DeepSeek-V3-0324发布引发AI行业震动:中国人工智能初创公司DeepSeek低调推出大型语言模型DeepSeek-V3-0324,其以641GB体量现身HuggingFace,仅附带空README文件和模型权重,延续低调却具影响力风格。
可免费商用且适配消费级硬件 :该模型采用MIT许可,能免费用于商业用途。令人瞩目的是,它可在配备M3Ultra芯片的苹果MacStUdio上直接运行,4位量化版本运行速度超20令牌/秒,打破了以往AI对数据中心的依赖。
创新架构与技术提升性能:DeepSeek-V3-0324采用混合专家(MoE)架构,执行任务时仅激活约370亿个参数,大幅提升效率。同时融入多头潜在注意力(MLA)和多令牌预测(MTP)技术,MLA增强长文本上下文理解能力,MTP使输出速度提升近80%,4位量化版本降低存储需求至352GB。
早期测试表现出色 :早期测试者反馈,该模型较上一版本有显著提升,已超越AnthroPic的ClaudeSonnet3.5,成为优秀非推理模型,且权重可免费下载。
开源策略与竞争优势:DeepSeek的开源发布策略与西方AI公司不同,中国AI企业倾向宽松开源许可,加速了AI生态系统发展,在芯片限制下通过强调效率和优化转化为竞争优势。
可能成为推理模型基础 :DeepSeek-V3-0324很可能是即将推出的DeepSeek-R2推理模型的基础,若性能出色将对GPT-5构成挑战。
体验途径多样 :用户和开发者可从HuggingFace下载完整模型权重,也可选择云服务,如OpenRouter提供免费API访问,DeepSeek自身聊天界面可能更新支持新版本,开发者还能通过推理服务提供商集成该模型。
沟通风格转变 :DeepSeek-V3-0324沟通风格从对话式转变为更正式、技术化,以适应专业场景,但可能影响在面向消费者应用中的吸引力。
开源策略重塑全球AI格局:DeepSeek的开源策略正在重塑全球AI格局,中国AI与美国差距大幅缩小,开源AI模型有望凭借广泛应用和集体创新脱颖而出。