xAI与OpenAI就Grok3基准测试结果起争执

AI快讯1年前 (2025)发布 niko

241 0 0

xAI与OpenAI围绕人工智能基准测试起争端。OpenAI员工指责马斯克创办的xAI公司，其发布的Grok3基准测试结果存在误导性，而xAI联合创始人伊戈尔・巴布申金坚称公司无问题。

此次争端源于xAI在博客展示Grok3在AIME2025测试中的表现图表。AIME2025是一系列挑战性数学问题集合，虽部分专家质疑其作为AI基准的有效性，但仍被广泛用于评估模型数学能力。

xAI图表显示，Grok3的两个变体Grok3Reasoning Beta和Grok3miniReasoning在AIME2025的表现超过OpenAI当前最佳模型o3 – mini – high。然而，OpenAI员工指出，xAI图表未包含o3 -mini – high在AIME2025上以“cons@64”计算的分数。

“cons@64”即“Consensus@64”的缩写，它给予模型64次尝试回答每个问题的机会，以生成答案中最常见的答案作为最终答案。这种评分机制会显著提升模型基准分数，省略该数据可能误导人们对模型表现的判断。

实际上，Grok3Reasoning Beta和Grok3mini Reasoning在AIME2025的“@1”分数，即模型首次尝试获得的分数，低于o3- mini – high的分数，且Grok3ReasoningBeta表现略逊于OpenAI的o1模型。即便如此，xAI仍将Grok3宣传为“世界上最聪明的AI”。

巴布申金在社交媒体回应称，OpenAI过去也曾发布类似误导性基准图表。一位中立专家整理出更“准确”的图表，引发更广泛讨论。

此外，AI研究者纳森・兰伯特指出，各模型取得最佳分数所需的计算（和财务）成本这一重要指标仍不明朗，这表明当前多数AI基准测试传达的信息对模型局限性和优势的反映有限。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

AI工具箱，全方位AI资源聚合平台，精选全球3000+优质免费AI应用，涵盖ppt生成, AI写作、AI编程、AI绘画、AI设计、AI论文、AI视频、AI配音、AI音乐、AI金融等多个领域领域的AI工具软件。包含扣子、扣子空间、DeepSeek、Gamma等热门AI工具。致力于让AI技术触手可及，助力用户高效工作，加速技术创新与产业应用落地，推动人工智能应用革新。

AI写作 AI设计 AI配音 AI音乐 AI图片生成 AI数字人 AI视频生成网站地图商务合作关于我们

Copyright © 2026 AI工具箱官网鄂ICP备2024044990号-2

鄂公网安备42010402001699号