Meta Llama 4：训练作弊风波与性能争议下的AI新局

AI快讯1年前 (2025)发布 niko

Meta LLaMA 4引发争议热潮 近日，Meta Llama4的「训练作弊」爆料在网络上掀起轩然大波。Meta迅速做出反应，多位核心人员接连辟谣，首席AI科学家Yann LeCun也亲自参与力挺。然而，Llama4的实际表现却饱受争议。

多方辟谣与质疑 Meta研究科学家主管Licheng Yu实名否认针对测试集过拟合训练，高级AI研究科学家DiJin也反怼爆料者，并指出破绽。Meta GenAI副总裁Ahmad Al-Dahle在X上澄清，强调模型的技术进步。尽管如此，Llama4在开源首日便引发诸多质疑，其公开模型与HF下载模型差异明显。

竞技场开撕与真相公开 Llama 4开源首日，Maverick模型在ChatbotArena上取得不错成绩，但随后开发者发现问题。lmarena.ai团队公开2000+组对战数据，直指Meta提交模型并非原版，且未明确说明定制优化情况。为平息争议，团队给出解决方案。

性能争议与评测结果 Llama 4在多个基准测试中的表现不尽人意，如在aider多语言编程基准测试、上下文基准测试以及MATH-Perturb基准测试等中，成绩远不及部分竞争对手。不过，在斯坦福计算机助理教授Percy Liang发布的新基准测试中，Llama 4Maverick取得最高分。

发布背景与行业格局 有传言称Qwen-3、DeepSeek R2等即将发布，Meta或许因此匆忙推出Llama 4。Llama4虽采用MoE架构等亮点，但发布表现出慌乱，且业界质疑其设计与开发者需求不符，Meta在开源生态方面的支持也受到质疑。

# AI快讯

文章版权归作者所有，未经允许请勿转载。