世界首个公开可用AI科学家天团登场,非营利组织FutureHouse发布了四个超人类的AI科学家智能体,分别是通用智能体Crow(乌鸦)、自动化文献综述智能体Falcon(猎鹰)、调研智能体Owl(猫头鹰)和实验智能体Phoenix(凤凰)。这些智能体专为科学研究开发,科研能力超越o3,文献搜索能力超人类博士。
Crow、Falcon和Owl通过严格基准测试,在搜索精度和准确性上超越o3 – mini、GPT – 4.5、Claude -3.7等顶级搜索模型。FutureHouse实验表明,它们在直接文献搜索任务中的检索和综合能力比博士水平研究人员精度更高。
与以往AI科学家不同,这几个智能体可访问大量完整的科学文本,能让用户提出更详细问题,还能区分来源质量。此外,FutureHouse为用户提供APi,方便研究者集成到工作流中。
网友对这些AI科学家充满期待,但也有人质疑数据使用许可问题。目前,这些智能体虽不能自主完成多数科研,但可用于生成和评估新假设、规划实验,且速度更快。FutureHouse内部还有数据分析、假设生成等方面的智能体将在未来几个月上线。
从科研效率角度看,当前人类科研效率下降,而AI已能加速科学发展。FutureHouse平台从科学第一角度构建,三位科学家希望AI科学家实现自动化科研全过程。Crow适合文献检索,Falcon是深度搜索工具,Owl专注先例搜索,Phoenix更关注化学问题。
以PCOS研究为例,Michaela用AI科学家从零知识获得可验证假设。Falcon对PCOS全面解释,自行搜索论文并提取信息,进行密集推理。Crow找出与PCOS相关关键基因研究。Phoenix则可根据调研结果给出治疗疾病的新型化合物,为药物研发提供线索。
FutureHouse的研发历程也十分迅速,从2024年6月发布Lab -Bench基准测试,到2024年9月开发PaperQA2智能体,再到2025年发布FutureHouse平台,仅用了一年时间。
FutureHouse智能体优势显著,能访问海量免费论文和专业工具,精准搜索信息,评估信息来源质量,推理过程透明,用户可查看依据。平台扩展性良好,提供网页端接口和API。其具体应用场景包括挖掘疾病机制、梳理文献矛盾、剖析实验方法、定制研究流程、寻找蛋白结合候选物和探索化学知识等。