xAI与OpenAI就Grok3基准测试结果起争执

AI快讯4小时前发布 niko
0 0
AiPPT - 一键生成ppt

xAI与OpenAI围绕人工智能基准测试起争端。OpenAI员工指责马斯克创办的xAI公司,其发布的Grok3基准测试结果存在误导性,而xAI联合创始人伊戈尔・巴布申金坚称公司无问题。

此次争端源于xAI在博客展示Grok3在AIME2025测试中的表现图表。AIME2025是一系列挑战性数学问题集合,虽部分专家质疑其作为AI基准的有效性,但仍被广泛用于评估模型数学能力。

xAI图表显示,Grok3的两个变体Grok3Reasoning Beta和Grok3miniReasoning在AIME2025的表现超过OpenAI当前最佳模型o3 – mini – high。然而,OpenAI员工指出,xAI图表未包含o3 -mini – high在AIME2025上以“cons@64”计算的分数。

“cons@64”即“Consensus@64”的缩写,它给予模型64次尝试回答每个问题的机会,以生成答案中最常见的答案作为最终答案。这种评分机制会显著提升模型基准分数,省略该数据可能误导人们对模型表现的判断。

实际上,Grok3Reasoning Beta和Grok3mini Reasoning在AIME2025的“@1”分数,即模型首次尝试获得的分数,低于o3- mini – high的分数,且Grok3ReasoningBeta表现略逊于OpenAI的o1模型。即便如此,xAI仍将Grok3宣传为“世界上最聪明的AI”。

巴布申金在社交媒体回应称,OpenAI过去也曾发布类似误导性基准图表。一位中立专家整理出更“准确”的图表,引发更广泛讨论。

此外,AI研究者纳森・兰伯特指出,各模型取得最佳分数所需的计算(和财务)成本这一重要指标仍不明朗,这表明当前多数AI基准测试传达的信息对模型局限性和优势的反映有限。

© 版权声明
智谱清言 - 国产最强AI模型