Grok3发布后：性能测试与行业新思考

北京时间2月18日，马斯克携手xAI团队于直播中正式推出Grok3，这一消息引发全球关注。此前，通过一系列相关信息的透露以及马斯克的持续预热，Grok3的受关注度被推至高潮。一周前，马斯克在直播评论DeepSeekR1时，便自信表示xAI将推出更出色的AI模型。

从现场展示数据来看，Grok3在数学、科学与编程的基准测试上超越诸多主流模型，马斯克甚至宣称其未来将用于SpaceX火星任务计算，并预测三年内会实现诺贝尔奖级别的突破。然而，实际测试结果却不尽人意。发布后，笔者对最新的Beta版Grok3进行测试，提出经典问题‘9.11与9.9哪个大’，在无额外定语和标注的情况下，Grok3未能给出正确答案。

不仅如此，海外众多类似基础物理、数学问题测试中，Grok3也暴露出应对能力不足的问题，被戏称为‘天才不愿意回答简单问题’。在xAI发布会直播中，马斯克演示用Grok3分析他常玩的Pathof Exile2职业与升华效果，Grok3给出的答案大多错误，而直播中的马斯克并未察觉这一明显问题。这一失误不仅让海外网友嘲讽马斯克游戏‘找代练’，也为Grok3实际应用的可靠性蒙上阴影。

目前，众多测试者对Grok3的表现给出结论：‘Grok3是很好，但它并不比R1或o1-Pro更好’。Grok3在官方发布PPT中展示在大模型竞技场ChatbotArena里‘遥遥领先’，但这运用了作图技巧，实际模型跑分结果显示，Grok3仅比DeepSeek R1和gpt4.0高出不到1 -2%，这与用户实际测试‘并无明显差别’的体感相符。

此外，xAI在Grok2时代就因在榜单‘刷分’被诟病‘高分低能’。此次为训练Grok3，马斯克称使用超过10万张H100（实际约20万张），总训练小时数达两亿小时。然而，网友对比发现，Grok3实际训练算力消耗是用2000张H800训练两个月得出的DeepSeekV3的263倍，而二者在大模型竞技场榜单得分差距不到100分。

从这些数据可见，Grok3登顶‘世界最强’背后，模型越大性能越强的逻辑出现明显边际效应。即便有X平台海量数据支撑的Grok2存在‘高分低能’问题，到Grok3训练时，xAI也面临优质训练数据不足的‘天花板’。

马斯克虽不断强调当前是测试版，完整版将在未来几个月推出，并化身产品经理收集用户反馈，但Grok3的表现给众多想依靠大量算力训练更强模型的后来者敲响警钟。例如，OpenAIGPT4参数体积相比GPT3提升超10倍，传闻中GPT4.5参数体积更大，面对Grok3的情况，它们不得不思考如何突破眼前的天花板。

此时，OpenAI前首席科学家IlyaSutskever去年12月的观点被重新提及。他曾准确预见可用新数据接近枯竭，模型难以通过获取数据提升性能，将此情况形容为化石燃料消耗，并表示下一代模型将具备‘真正的自主性’和‘类似人脑’的推理能力，与当前预训练模型主要依赖内容匹配不同，未来AI系统将以类人脑‘思维’方式学习并建立解决问题的方法论。

人类精通某学科只需基本专业书籍，而AI大模型需学习海量数据才能入门，且面对换问法的基础问题也可能无法理解，智能提升有限，Grok3的诸多表现便是例证。但如果Grok3能揭示‘预训练模型即将走到尽头’这一事实，对行业将有重要启发意义。或许在Grok3热潮退去后，我们能看到更多类似李飞飞‘50美元微调出高性能模型’的案例，从而找到通向AGI的真正道路。

# AI快讯

文章版权归作者所有，未经允许请勿转载。