SciArena开启大语言模型科学文献任务评估,揭示模型性能差距

AI快讯13小时前发布 niko
4 0
AiPPT - 一键生成ppt

SciArena是一个全新的开放平台,由耶鲁大学、纽约大学和艾伦人工智能研究所的研究人员开发,其主要目标是通过人类偏好评估的方式,系统地评测大语言模型(LLMs)在科学文献任务中的表现,填补了该领域系统评估的空白。

  • 与传统基准测试不同,SciArena 借鉴了Chatbot Arena的方法,依靠真实的研究人员进行评估。用户提交科学问题后,会收到两个带有参考文献的长格式模型答案,然后决定哪个答案更优。相关文献通过定制的ScholarQA流程检索。
  • 截至目前,该平台已收集了来自自然科学、工程、生命科学和社会科学等领域102位研究人员的超13000次评估,涵盖概念解释和文献检索等主题。
  • 在当前的排名中,OpenAI的o3模型位居榜首,Claude – 4 – Opusgemini – 2.5 – Pro紧随其后。在开源模型 中,DeepSeek – R1 – 0528表现突出,其性能甚至超过了一些专有系统。研究团队指出,o3在自然科学和工程科学方面表现尤为出色。研究人员还发现,用户更关注引用是否与陈述正确匹配,而非引用数量。与Chatbot Arena或SeARCh Arena等平台相比,答案长度等因素对SciArena 的影响较小。

尽管取得了这些进展,自动化评估 仍然是一个挑战。为此,团队推出了名为SciArena – Eval的新基准测试,用于测试语言模型判断其他模型答案的能力。然而,即使是表现最好的模型,与人类偏好的一致性也仅约为65%,这凸显了当前大语言模型评判系统在科学领域的局限性。

SciArena 是公开可访问的,其代码、数据和SciArena – Eval基准测试均以开源形式提供。该平台旨在支持开发更能满足人类在科学信息任务需求的模型。未来,SciArena 计划增加对基于代理的研究系统的评估功能。

© 版权声明
Trea - 国内首个原生AI IDE