Grok 4跑分惊人,以第一性原理改写LLM格局

AI快讯12小时前发布 niko
3 0
AiPPT - 一键生成ppt

Grok 4跑分成绩提前曝光,在「人类最后考试」中得分高达45%,远超geminiClaude,成为当下测试中实力强劲的模型之一。马斯克表示,Grok 4以「第一性原理」搭建推理机制,有望重塑LLM格局。

目前部署的Grok,能力已有显著提升。网友LEGIT的截图泄露了Grok 4和Grok 4 Code在多个关键基准评测的跑分,该消息得到AI圈大佬TiborBlaho确认。在GPQA、AIME 25和SWE – bench评测中,Grok 4优势明显,全面超越谷歌Gemini 2.5 Pro、OpenAIo3和Claude 4 Opus

在「人类最后考试」中,Grok 4默认得分35%,最高达45%。最强状态下,得分是Gemini 2.5 Pro的2倍,比Claude 4Opus高出4倍多。这场考试难度极高,涵盖100多个学科的2500道专家级试题,设有防记忆陷阱和隐藏测试集。若此次泄露属实,Grok4将闯过AI基准测试最难关卡之一,引发社区广泛讨论。

此前,X上有人在xAI控制台源代码中发现Grok 4和Grok 4 Code两个模型。Grok 4是旗舰模型,在自然语言、数学及推理领域表现出色;Grok4 Code专为编程打造,可咨询代码问题或嵌入代码编辑器。

马斯克曾透露,Grok 3.5尝试从第一性原理推理,如今的Grok 4正是之前的Grok -3.5。他强调开发「特殊」编码模型需大型训练,并表示打造Grok 3.5要以物理基本原理为指导推理问题,减少误差,这对AI安全至关重要。

当前,编码能力成为各模型竞争焦点。谷歌、AnthroPic、OpenAI、DeepSeek等公司的模型都在编码方面各有优势。依据GrokAPI此前的模型推测,Grok 4 Code或许是此次发布的重点,值得期待。

© 版权声明
Trea - 国内首个原生AI IDE