Grok 4跑分惊人，以第一性原理改写LLM格局

AI快讯1年前 (2025)发布 niko

Grok 4跑分成绩提前曝光，在「人类最后考试」中得分高达45%，远超gemini与Claude，成为当下测试中实力强劲的模型之一。马斯克表示，Grok 4以「第一性原理」搭建推理机制，有望重塑LLM格局。

目前部署的Grok，能力已有显著提升。网友LEGIT的截图泄露了Grok 4和Grok 4 Code在多个关键基准评测的跑分，该消息得到AI圈大佬TiborBlaho确认。在GPQA、AIME 25和SWE – bench评测中，Grok 4优势明显，全面超越谷歌Gemini 2.5 Pro、OpenAIo3和Claude 4 Opus。

在「人类最后考试」中，Grok 4默认得分35%，最高达45%。最强状态下，得分是Gemini 2.5 Pro的2倍，比Claude 4Opus高出4倍多。这场考试难度极高，涵盖100多个学科的2500道专家级试题，设有防记忆陷阱和隐藏测试集。若此次泄露属实，Grok4将闯过AI基准测试最难关卡之一，引发社区广泛讨论。

此前，X上有人在xAI控制台源代码中发现Grok 4和Grok 4 Code两个模型。Grok 4是旗舰模型，在自然语言、数学及推理领域表现出色；Grok4 Code专为编程打造，可咨询代码问题或嵌入代码编辑器。

马斯克曾透露，Grok 3.5尝试从第一性原理推理，如今的Grok 4正是之前的Grok -3.5。他强调开发「特殊」编码模型需大型训练，并表示打造Grok 3.5要以物理基本原理为指导推理问题，减少误差，这对AI安全至关重要。

当前，编码能力成为各模型竞争焦点。谷歌、AnthroPic、OpenAI、DeepSeek等公司的模型都在编码方面各有优势。依据GrokAPI此前的模型推测，Grok 4 Code或许是此次发布的重点，值得期待。

# AI快讯

文章版权归作者所有，未经允许请勿转载。