OpenAI MRCR基准测试：挑战AI超长记忆力与信息检索极限

AI快讯1年前 (2025)发布 niko

OpenAI发布新基准，挑战AI超长记忆力

当AI模型具备千万级Token超长记忆力，如何评估其真实实力？OpenAI给出MRCR基准测试这一答案。它将评估难度提升至全新高度，如同在AI界举办一场高水准的「奥运会」。

从「大海捞针」到MRCR，测试难度不断升级

早期的「大海捞针」测试，由Greg Kamradt为检测GPT – 4上下文能力提出。该测试把特定信息嵌入超长复杂文本，让AI从中检索。在GPT -4中，当输入tokens大于100k，信息嵌入文档10% -50%时，其检索能力显著下降。但gpt4.1在这方面有了极大提升，能在100万个tokens的上下文长度中，准确检索到目标信息。并且，GPT4.1的上下文窗口达到了惊人的10M，即1000万tokens。

然而，如今「大海捞针」测试对于强大的大模型可能过于简单。OpenAI推出的MRCR（多轮共指消解）数据集，为顶级AI大模型打造了一场终极「躲猫猫」游戏。它要求模型在长上下文中区分多个目标，例如在一段长对话中，模型需准确将特定字符加到指定顺序的诗前。此测试极具挑战性，刺激项与干扰项易混淆，模型还需区分刺激项顺序，且刺激项数量和上下文长度增加会使任务难度加大。

MRCR测试结果与AI发展方向

在MRCR测试中，不同模型表现各异。当针数增加、上下文增大时，模型准确性迅速降低。如2个针的情况下，GPT4.1、GPT4.1 – mini以及GPT4.1nano准确性同步降低；4针和8针且上下文足够大时，GPT4.1 mini准确性甚至略超GPT4.1。这表明在严苛测试中，并非模型越大越好。

AI基准测试的重要意义

从简单问答到复杂推理，从「大海捞针」到MRCR，AI大模型的基准测试永无止境。像OpenAI -MRCR这样的创新性基准，不仅能揭示当前AI的能力边界，还能激励研究者开发更强大、可靠的模型，同时促进AI技术的审慎应用。GPT4.1已展现出强大的信息检索能力，未来AI大模型的能力上限令人期待。

# AI快讯

文章版权归作者所有，未经允许请勿转载。