北京时间2月18日,马斯克携手xAI团队于直播中正式推出Grok3,这一消息引发全球关注。此前,通过一系列相关信息的透露以及马斯克的持续预热,Grok3的受关注度被推至高潮。一周前,马斯克在直播评论DeepSeekR1时,便自信表示xAI将推出更出色的AI模型。

从现场展示数据来看,Grok3在数学、科学与编程的基准测试上超越诸多主流模型,马斯克甚至宣称其未来将用于SpaceX火星任务计算,并预测三年内会实现诺贝尔奖级别的突破。然而,实际测试结果却不尽人意。发布后,笔者对最新的Beta版Grok3进行测试,提出经典问题‘9.11与9.9哪个大’,在无额外定语和标注的情况下,Grok3未能给出正确答案。
不仅如此,海外众多类似基础物理、数学问题测试中,Grok3也暴露出应对能力不足的问题,被戏称为‘天才不愿意回答简单问题’。在xAI发布会直播中,马斯克演示用Grok3分析他常玩的Pathof Exile2职业与升华效果,Grok3给出的答案大多错误,而直播中的马斯克并未察觉这一明显问题。这一失误不仅让海外网友嘲讽马斯克游戏‘找代练’,也为Grok3实际应用的可靠性蒙上阴影。

目前,众多测试者对Grok3的表现给出结论:‘Grok3是很好,但它并不比R1或o1-Pro更好’。Grok3在官方发布PPT中展示在大模型竞技场ChatbotArena里‘遥遥领先’,但这运用了作图技巧,实际模型跑分结果显示,Grok3仅比DeepSeek R1和gpt4.0高出不到1 -2%,这与用户实际测试‘并无明显差别’的体感相符。
此外,xAI在Grok2时代就因在榜单‘刷分’被诟病‘高分低能’。此次为训练Grok3,马斯克称使用超过10万张H100(实际约20万张),总训练小时数达两亿小时。然而,网友对比发现,Grok3实际训练算力消耗是用2000张H800训练两个月得出的DeepSeekV3的263倍,而二者在大模型竞技场榜单得分差距不到100分。
从这些数据可见,Grok3登顶‘世界最强’背后,模型越大性能越强的逻辑出现明显边际效应。即便有X平台海量数据支撑的Grok2存在‘高分低能’问题,到Grok3训练时,xAI也面临优质训练数据不足的‘天花板’。

马斯克虽不断强调当前是测试版,完整版将在未来几个月推出,并化身产品经理收集用户反馈,但Grok3的表现给众多想依靠大量算力训练更强模型的后来者敲响警钟。例如,OpenAIGPT4参数体积相比GPT3提升超10倍,传闻中GPT4.5参数体积更大,面对Grok3的情况,它们不得不思考如何突破眼前的天花板。
此时,OpenAI前首席科学家IlyaSutskever去年12月的观点被重新提及。他曾准确预见可用新数据接近枯竭,模型难以通过获取数据提升性能,将此情况形容为化石燃料消耗,并表示下一代模型将具备‘真正的自主性’和‘类似人脑’的推理能力,与当前预训练模型主要依赖内容匹配不同,未来AI系统将以类人脑‘思维’方式学习并建立解决问题的方法论。
人类精通某学科只需基本专业书籍,而AI大模型需学习海量数据才能入门,且面对换问法的基础问题也可能无法理解,智能提升有限,Grok3的诸多表现便是例证。但如果Grok3能揭示‘预训练模型即将走到尽头’这一事实,对行业将有重要启发意义。或许在Grok3热潮退去后,我们能看到更多类似李飞飞‘50美元微调出高性能模型’的案例,从而找到通向AGI的真正道路。