近期,AI领域因LLaMA 4的出现引发诸多争议,其相关问题甚至指向AI进步是否会彻底停滞。
一位AI公司CEO对Llama 4提出五大疑点,掀起行业讨论热潮。同时,NYU教授马库斯也发表观点,认为Llama4的表现证实了Scaling已经结束,LLM在可靠推理方面存在严重不足。
长上下文测试:Llama 4表现不佳
Llama 4号称拥有业界领先的一千万个token的上下文窗口,然而2024年2月gemini 1.5Pro就已达到此水平。在用于长上下文深度理解的fiction livebench基准测试中,Gemini 2.5 Pro表现出色,Llama4的中等模型和小模型性能却极其糟糕,且随token长度增加表现更差。
发布时间疑点重重
为何Llama 4选在周六发布?这在美国AI技术圈史无前例。而且其最新训练数据截止时间是2024年8月,相比之下Gemini2.5的训练知识截止时间是2025年1月。这背后可能是Meta的发布计划被其他模型打乱。
模型作弊质疑声起
尽管Llama 4展示出一定进展,如Llama 4 Maverick活动参数量仅DeepSeek V3一半却取得相当性能。但核心问题是Meta是否在LMArena上作弊,在测试集上训练。目前LM Arena已公开数据并表示会重新评估排行榜。
代码性能惨不忍睹
在ADA的Polyglot编码基准测试中,涉及一系列编程语言性能测验,Gemini 2.5 Pro名列前茅,Llama 4Maverick得分却只有15.6%,与Meta创始人言论出入很大。
结果代表性存疑
Meta将Llama 4与其他模型比较时数字漂亮,但脚注显示结果可能是多次运行取最好成绩。此外,Llama4在与其他模型对比时也存在不合理之处,其使用条款在欧洲也限制了用户构建模型的权利。
Scaling结束与推理能力缺失
马库斯认为大模型的Scaling已结束,LLM难以实现真正的推理。规模化未能达到预期效果,真正的智能需要意图和远见,而LLM多通过模式识别或捷径给出答案,并非真正的数学推理。生成式AI可能面临经济回报失败,AI泡沫或破灭。