OpenAI MRCR基准测试:挑战AI超长记忆力与信息检索极限

AI快讯1天前发布 niko
3 0
AiPPT - 一键生成ppt

OpenAI发布新基准,挑战AI超长记忆力

当AI模型具备千万级Token超长记忆力,如何评估其真实实力?OpenAI给出MRCR基准测试这一答案。它将评估难度提升至全新高度,如同在AI界举办一场高水准的「奥运会」。

从「大海捞针」到MRCR,测试难度不断升级

早期的「大海捞针」测试,由Greg Kamradt为检测GPT – 4上下文能力提出。该测试把特定信息嵌入超长复杂文本,让AI从中检索。在GPT -4中,当输入tokens大于100k,信息嵌入文档10% -50%时,其检索能力显著下降。但gpt4.1在这方面有了极大提升,能在100万个tokens的上下文长度中,准确检索到目标信息。并且,GPT4.1的上下文窗口达到了惊人的10M,即1000万tokens。

然而,如今「大海捞针」测试对于强大的大模型可能过于简单。OpenAI推出的MRCR(多轮共指消解)数据集,为顶级AI大模型打造了一场终极「躲猫猫」游戏。它要求模型在长上下文中区分多个目标,例如在一段长对话中,模型需准确将特定字符加到指定顺序的诗前。此测试极具挑战性,刺激项与干扰项易混淆,模型还需区分刺激项顺序,且刺激项数量和上下文长度增加会使任务难度加大。

MRCR测试结果与AI发展方向

在MRCR测试中,不同模型表现各异。当针数增加、上下文增大时,模型准确性迅速降低。如2个针的情况下,GPT4.1、GPT4.1 – mini以及GPT4.1nano准确性同步降低;4针和8针且上下文足够大时,GPT4.1 mini准确性甚至略超GPT4.1。这表明在严苛测试中,并非模型越大越好。

AI基准测试的重要意义

从简单问答到复杂推理,从「大海捞针」到MRCR,AI大模型的基准测试永无止境。像OpenAI -MRCR这样的创新性基准,不仅能揭示当前AI的能力边界,还能激励研究者开发更强大、可靠的模型,同时促进AI技术的审慎应用。GPT4.1已展现出强大的信息检索能力,未来AI大模型的能力上限令人期待。

© 版权声明
Trea - 国内首个原生AI IDE