近年来,技术的发展让知识密集型工作领域也不得不面临重大变革。大型语言模型在预测神经科学领域的研究结果方面已超越人类专家,平均准确率高达81%,与人类专家63%的准确率相比,其出色的预测能力表现尤为显著;这些模型通过整合海量文献资料,显示出了超越人类的前瞻性预测能力,这不仅意味着未来科研工作中人机协作的巨大潜力,也代表着知识密集型工作领域的深刻变革。
随着科学工具的进步,科研人员的规模与效率显著增长,科学文献产量呈指数级增加,相较于人类的阅读效率却停滞不前,新进入领域的研究人员一上来就要面对过去数十年的研究成果。在快节奏的科研环境中,优先阅读具有较高影响力和知名度的论文成为许多研究者的策略,而这往往会导致他们忽略那些颇具潜力的、颠覆性的发现。
以ChatGPT为代表的大型模型成为了科研阅读辅助的重要工具,其应用范围已经从专业考试、有限推理扩展到了翻译、解决数学问题甚至编写代码等领域,展现了广泛的应用潜力。目前的研究主要考察了大型模型在科研领域的表现,较为典型的测评基准数据集如MMLU、PubMedQA和MedMCQA,通常采用问答形式来评估模型的核心知识检索和推理能力。但是,这些传统基准并不适宜评估模型的前瞻性能力,因为旨在辅助科研而设计的模型需要整合众多相互关联但嘈杂的发现,并在预测新结果方面超越人类专家。
最近,伦敦大学学院的研究者在《Nature Human Behaviour》上发布的一项新研究——神经科学领域模型预测能力的前瞻性基准BrainBench,标志着该领域研究的新进展。研究发现,大型模型的表现远超人类专家,平均准确率达到81%,而人类专家准确率为63%。即便研究团队限制人类反馈仅来自神经科学领域专业知识最丰富的参与者,他们的准确率仍低于使用大型模型,仅为66%。这证实了大型模型不仅能够辅助人类做出科研新发现,而且这种方法还不限于神经学科,其他知识密集型任务也有望得到应用。
神经科学领域的预测无疑是极具挑战性的任务。其中面临的问题包括:上万篇文献的阅读量、不可复制的研究结果、跨学科特性、复杂多样的分析方法、实验技术多样等五大难题。为了满足大模型的评测需求,研究人员开发的BrainBench基准包括200个由人类专家精心设计的测试案例和100个GPT-4生成的测试案例,覆盖行为/认知、系统/回路、疾病神经生物学、细胞/分子、发展/可塑性/修复等五大神经科学领域。
每个测试案例都是在不改变方法和背景的情况下,修改已发表摘要以大幅改变研究结论。测试者需要从原始摘要和修改版本中选择正确的,人类专家和大型语言模型的任务是从两个选项中选择正确的原始版本。对于GPT-4,测试提示要求在修改摘要时注意到背景、方法和科学概念的修改需要深刻理解主题,并保持摘要的逻辑和连贯性。
实验中,171名人类神经科学专家通过筛选成为参与者,他们在BrainBench上的表现低于大型模型,平均准确率仅为63.4%。即使是前20%的专业水平人员,正确率也只上升到66.2%。小型模型,如70亿参数的Llama2-7B和Mistral-7B,性能堪与大型模型相媲美,这可能表明小型模型缺乏捕捉关键数据模式的能力,而特定优化的模型如聊天指令优化的模型表现较差。研究人员推测,将大型语言模型适应自然语言对话可能会影响其科学推理能力。
进一步的测试显示,大型语言模型在不同子领域中的表现均优于人类专家。试验还排除了该基准测试数据集是训练集一部分的可能性,并确认模型未在项目发表时间上(2023年1月与10月相比)表现得更好。实验结果还表明,大型语言模型显示出置信度与准确性之间的正相关性,即当这些模型对自己的决策有信心时,更有可能做出正确的选择。研究人员还在个体层面分析并验证了模型困惑度差异与正确性之间的正相关性,及人类置信度与正确性之间的逻辑回归关系。
参考文献:
相关研究论文链接:Nature Human Behaviour
其他相关信息链接:信息来源