DeepSeek-V3-0324 大型语言模型发布，创新架构与开源策略引关注

AI快讯1年前 (2025)发布 niko

DeepSeek-V3-0324发布引发AI行业震动：中国人工智能初创公司DeepSeek低调推出大型语言模型DeepSeek-V3-0324，其以641GB体量现身HuggingFace，仅附带空README文件和模型权重，延续低调却具影响力风格。

可免费商用且适配消费级硬件 ：该模型采用MIT许可，能免费用于商业用途。令人瞩目的是，它可在配备M3Ultra芯片的苹果MacStUdio上直接运行，4位量化版本运行速度超20令牌/秒，打破了以往AI对数据中心的依赖。

创新架构与技术提升性能：DeepSeek-V3-0324采用混合专家（MoE）架构，执行任务时仅激活约370亿个参数，大幅提升效率。同时融入多头潜在注意力(MLA)和多令牌预测(MTP)技术，MLA增强长文本上下文理解能力，MTP使输出速度提升近80%，4位量化版本降低存储需求至352GB。

早期测试表现出色 ：早期测试者反馈，该模型较上一版本有显著提升，已超越AnthroPic的 ClaudeSonnet3.5，成为优秀非推理模型，且权重可免费下载。

开源策略与竞争优势：DeepSeek的开源发布策略与西方AI公司不同，中国AI企业倾向宽松开源许可，加速了AI生态系统发展，在芯片限制下通过强调效率和优化转化为竞争优势。

可能成为推理模型基础 ：DeepSeek-V3-0324很可能是即将推出的DeepSeek-R2推理模型的基础，若性能出色将对GPT-5构成挑战。

体验途径多样 ：用户和开发者可从HuggingFace下载完整模型权重，也可选择云服务，如OpenRouter提供免费API访问，DeepSeek自身聊天界面可能更新支持新版本，开发者还能通过推理服务提供商集成该模型。

沟通风格转变 ：DeepSeek-V3-0324沟通风格从对话式转变为更正式、技术化，以适应专业场景，但可能影响在面向消费者应用中的吸引力。

开源策略重塑全球AI格局：DeepSeek的开源策略正在重塑全球AI格局，中国AI与美国差距大幅缩小，开源AI模型有望凭借广泛应用和集体创新脱颖而出。

# AI快讯

文章版权归作者所有，未经允许请勿转载。