DeepSeek-V3-0324震撼发布DeepSeek低调推出其最新大型语言模型DeepSeek-V3-0324,在AI领域激起千层浪。该模型容量达641GB,悄然现身于AI模型库HuggingFace,延续了DeepSeek一贯低调却影响力十足的发布风格。
性能卓越,媲美顶尖模型早期测试者反馈,DeepSeek-V3在各项指标上取得显著进步。AI研究员Xeophon称其在内部测试中“所有测试指标均大幅跃升”,甚至断言它是“最佳非推理模型,已取代Sonnet3.5”。若此说法得到广泛验证,DeepSeek新模型将超越AnthroPic备受赞誉的ClaudeSonnet3.5。
开源商用,打破付费枷锁与需订阅使用的Sonnet不同,DeepSeek-V3-0324的模型权重完全免费,任何人皆可下载使用。并且,该模型采用MIT许可证,可自由用于商业用途,与西方AI公司将模型设付费墙的做法形成鲜明反差。
创新架构,实现效率变革 DeepSeekV3-0324采用混合专家(MoE)架构,从根本上革新了大型语言模型运行模式。特定任务中,仅激活约370亿个参数(共6850亿参数),在降低计算需求的同时,实现与更大完全激活模型相当的性能。
两大技术突破,提升输出速度该模型融入多头潜在注意力(MLA)和多令牌预测(MTP)两项突破性技术。MLA增强长文本上下文保持能力,MTP每步可生成多个令牌,共同将输出速度提高近80%。
硬件友好,本地运行可期 开发者指出,4位量化版本将存储占用减至352GB,使得高端消费级硬件如配备M3Ultra芯片的MacStUdio也能运行该模型。在本地运行如此大规模模型,与传统需数据中心级AI基础设施的AI形成鲜明对比。
风格转变,聚焦专业技术早期用户发现,DeepSeek-V3-0324沟通风格更正式、更重技术。与之前对话式、类人类语调不同,新版本被指“不那么像人类”,这或为工程师的有意设计,旨在将模型定位为更专业的技术应用。
发布策略,彰显中西差异DeepSeek的发布策略凸显中国和西方公司在AI商业理念上的差异。美国公司将模型设付费墙,而中国AI公司倾向宽松开源许可,这正改变中国AI生态,助力创新。
未来展望,竞争格局初现DeepSeek-V3-0324被视为下一代推理模型DeepSeek-R2的基础。若DeepSeek-R2延续R1轨迹,或对OpenAI传闻的GPT-5构成挑战,其开放、资源高效战略将重塑AI未来竞争格局。
目前,用户可通过HuggingFace下载模型权重,或通过OpenRouter等平台体验API接口,DeepSeek自身聊天界面也可能已更新。其开放战略正引领AI走向更开放、普及的创新时代。