开源大模型Llama 4口碑翻车，Chatbot Arena引发争议

开源大模型LLaMA 4的风波持续发酵。4月8日，有大语言模型“权威榜单之一”之称的ChatbotArena（民间称“大模型竞技场”）发布严肃声明。面对社群对Meta新模型Llama4排名的质疑，官方将公开2000多场真人对比测试完整数据，还罕见点名Meta，称其应更明确表明‘Llama-4-Maverick-03-26-Experimental’是定制化模型，同时更新排行榜策略避免混淆。

ChatbotArena由加州大学伯克利分校发起，是大模型评测中极具行业影响力的‘真人盲测’排行榜。其核心机制是让开发者和AI爱好者在平台用相同问题向两款模型提问，对比回答并投票打分。这种机制使ChatbotArena有别于其他基准测试，成为外界信赖的大模型排行榜，一款模型在该排行榜的名次，一定程度上影响其在媒体和开发者群体中的口碑与采纳率。

4月5日，Meta在官方博客发布文章，正式宣布Llama 4系列模型面向社区开源，公开了Llama 4 Scout、Llama 4Maverick、还在训练的‘教师模型’Llama 4Behemoth三个版本，均首次采用混合专家（MoE）架构。其中Maverick版本备受关注，是拥有128个‘专家’的170亿活跃参数模型，Meta称其为‘同类最佳的多模态模型’，强调在多方面超越gemini2.0与 GPT-4o，在编码和推理方面比DeepSeek 3.1更具竞争力。

然而，Llama 4发布后情况未达Meta预期。社区首批用户对其表现不满，在多个测试中，尤其需要代码能力和严谨逻辑推理的场景，Llama4表现未达官方宣传，在AiderChat提供的Polyglot编程测试中，Maverick版本正确率仅16%，处于排行榜末尾，不仅与庞大参数体量不符，还落后于规模更小的开源模型。

风评下滑之际，质疑声不断，如Llama 4是否用公开测试集训练、是否针对ChatbotArena针对性优化等。在中文移民社区‘一亩三分地’上，自称Meta员工的人发帖称Meta将测试集混入‘后训练’。不过Meta团队很快澄清，经手‘后训练’的MetaGenAI成员Licheng Yu实名表示没为刷分过度拟合测试集，负责Meta GenAI的副总裁Ahmad Al-Dahle也在X平台称Meta没在测试集上训练Llama 4，Meta还发布开源版本回应批评。但这些回应未能回避Llama 4真实能力问题，Llama4从发布时的‘高光’跌入‘信任危机’。

表面上，Llama 4口碑翻车似有戏剧张力，有匿名离职员工爆料等说法，但从公开信息看，这些说法多经不起推敲。实际上，Llama4的问题在于开源大模型竞争加剧下的失速。过去两年，Meta凭Llama 2和Llama 3在开源模型市场建立良好认知，如今DeepSeekV3/R1发布缩小开源与闭源模型差距，加速开源模型发展，让Llama面临更大压力。Llama4可能因有Deadline，在参数规模膨胀、架构复杂化的同时，没留出足够测试和改进时间，导致性能不稳定。此外，Meta动作变形，Llama-4-Maverick-03-26-Experimental针对对话模式优化，但‘首发’ChatbotArena的做法适得其反。Meta需面对其他大模型崛起甚至超越自己的现实，才有机会补救。

# AI快讯

文章版权归作者所有，未经允许请勿转载。