SciArena开启大语言模型科学文献任务评估，揭示模型性能差距

SciArena是一个全新的开放平台，由耶鲁大学、纽约大学和艾伦人工智能研究所的研究人员开发，其主要目标是通过人类偏好评估的方式，系统地评测大语言模型（LLMs）在科学文献任务中的表现，填补了该领域系统评估的空白。

与传统基准测试不同，SciArena 借鉴了Chatbot Arena的方法，依靠真实的研究人员进行评估。用户提交科学问题后，会收到两个带有参考文献的长格式模型答案，然后决定哪个答案更优。相关文献通过定制的ScholarQA流程检索。
截至目前，该平台已收集了来自自然科学、工程、生命科学和社会科学等领域102位研究人员的超13000次评估，涵盖概念解释和文献检索等主题。
在当前的排名中，OpenAI的o3模型位居榜首，Claude – 4 – Opus和gemini – 2.5 – Pro紧随其后。在开源模型 中，DeepSeek – R1 – 0528表现突出，其性能甚至超过了一些专有系统。研究团队指出，o3在自然科学和工程科学方面表现尤为出色。研究人员还发现，用户更关注引用是否与陈述正确匹配，而非引用数量。与Chatbot Arena或SeARCh Arena等平台相比，答案长度等因素对SciArena 的影响较小。

尽管取得了这些进展，自动化评估 仍然是一个挑战。为此，团队推出了名为SciArena – Eval的新基准测试，用于测试语言模型判断其他模型答案的能力。然而，即使是表现最好的模型，与人类偏好的一致性也仅约为65%，这凸显了当前大语言模型评判系统在科学领域的局限性。

SciArena 是公开可访问的，其代码、数据和SciArena – Eval基准测试均以开源形式提供。该平台旨在支持开发更能满足人类在科学信息任务需求的模型。未来，SciArena 计划增加对基于代理的研究系统的评估功能。

文章版权归作者所有，未经允许请勿转载。