开源大模型LLaMA 4的风波持续发酵。4月8日,有大语言模型“权威榜单之一”之称的ChatbotArena(民间称“大模型竞技场”)发布严肃声明。面对社群对Meta新模型Llama4排名的质疑,官方将公开2000多场真人对比测试完整数据,还罕见点名Meta,称其应更明确表明‘Llama-4-Maverick-03-26-Experimental’是定制化模型,同时更新排行榜策略避免混淆。
ChatbotArena由加州大学伯克利分校发起,是大模型评测中极具行业影响力的‘真人盲测’排行榜。其核心机制是让开发者和AI爱好者在平台用相同问题向两款模型提问,对比回答并投票打分。这种机制使ChatbotArena有别于其他基准测试,成为外界信赖的大模型排行榜,一款模型在该排行榜的名次,一定程度上影响其在媒体和开发者群体中的口碑与采纳率。
4月5日,Meta在官方博客发布文章,正式宣布Llama 4系列模型面向社区开源,公开了Llama 4 Scout、Llama 4Maverick、还在训练的‘教师模型’Llama 4Behemoth三个版本,均首次采用混合专家(MoE)架构。其中Maverick版本备受关注,是拥有128个‘专家’的170亿活跃参数模型,Meta称其为‘同类最佳的多模态模型’,强调在多方面超越gemini2.0与GPT-4o,在编码和推理方面比DeepSeek 3.1更具竞争力。
然而,Llama 4发布后情况未达Meta预期。社区首批用户对其表现不满,在多个测试中,尤其需要代码能力和严谨逻辑推理的场景,Llama4表现未达官方宣传,在AiderChat提供的Polyglot编程测试中,Maverick版本正确率仅16%,处于排行榜末尾,不仅与庞大参数体量不符,还落后于规模更小的开源模型。
风评下滑之际,质疑声不断,如Llama 4是否用公开测试集训练、是否针对ChatbotArena针对性优化等。在中文移民社区‘一亩三分地’上,自称Meta员工的人发帖称Meta将测试集混入‘后训练’。不过Meta团队很快澄清,经手‘后训练’的MetaGenAI成员Licheng Yu实名表示没为刷分过度拟合测试集,负责Meta GenAI的副总裁Ahmad Al-Dahle也在X平台称Meta没在测试集上训练Llama 4,Meta还发布开源版本回应批评。但这些回应未能回避Llama 4真实能力问题,Llama4从发布时的‘高光’跌入‘信任危机’。
表面上,Llama 4口碑翻车似有戏剧张力,有匿名离职员工爆料等说法,但从公开信息看,这些说法多经不起推敲。实际上,Llama4的问题在于开源大模型竞争加剧下的失速。过去两年,Meta凭Llama 2和Llama 3在开源模型市场建立良好认知,如今DeepSeekV3/R1发布缩小开源与闭源模型差距,加速开源模型发展,让Llama面临更大压力。Llama4可能因有Deadline,在参数规模膨胀、架构复杂化的同时,没留出足够测试和改进时间,导致性能不稳定。此外,Meta动作变形,Llama-4-Maverick-03-26-Experimental针对对话模式优化,但‘首发’ChatbotArena的做法适得其反。Meta需面对其他大模型崛起甚至超越自己的现实,才有机会补救。