深度剖析：Llama 4引发的AI进步停滞与诸多疑点

近期，AI领域因LLaMA 4的出现引发诸多争议，其相关问题甚至指向AI进步是否会彻底停滞。

一位AI公司CEO对Llama 4提出五大疑点，掀起行业讨论热潮。同时，NYU教授马库斯也发表观点，认为Llama4的表现证实了Scaling已经结束，LLM在可靠推理方面存在严重不足。

长上下文测试：Llama 4表现不佳

Llama 4号称拥有业界领先的一千万个token的上下文窗口，然而2024年2月gemini 1.5Pro就已达到此水平。在用于长上下文深度理解的fiction livebench基准测试中，Gemini 2.5 Pro表现出色，Llama4的中等模型和小模型性能却极其糟糕，且随token长度增加表现更差。

发布时间疑点重重

为何Llama 4选在周六发布？这在美国AI技术圈史无前例。而且其最新训练数据截止时间是2024年8月，相比之下Gemini2.5的训练知识截止时间是2025年1月。这背后可能是Meta的发布计划被其他模型打乱。

模型作弊质疑声起

尽管Llama 4展示出一定进展，如Llama 4 Maverick活动参数量仅DeepSeek V3一半却取得相当性能。但核心问题是Meta是否在LMArena上作弊，在测试集上训练。目前LM Arena已公开数据并表示会重新评估排行榜。

代码性能惨不忍睹

在ADA的Polyglot编码基准测试中，涉及一系列编程语言性能测验，Gemini 2.5 Pro名列前茅，Llama 4Maverick得分却只有15.6%，与Meta创始人言论出入很大。

结果代表性存疑

Meta将Llama 4与其他模型比较时数字漂亮，但脚注显示结果可能是多次运行取最好成绩。此外，Llama4在与其他模型对比时也存在不合理之处，其使用条款在欧洲也限制了用户构建模型的权利。

Scaling结束与推理能力缺失

马库斯认为大模型的Scaling已结束，LLM难以实现真正的推理。规模化未能达到预期效果，真正的智能需要意图和远见，而LLM多通过模式识别或捷径给出答案，并非真正的数学推理。生成式AI可能面临经济回报失败，AI泡沫或破灭。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

深度剖析：Llama 4引发的AI进步停滞与诸多疑点

热门AI工具

相关文章