近期,Vectara公布“幻觉排行榜”报告,借助其Hughes幻觉评估模型(HHEM-2.1),对不同大型语言模型在总结短文档时产生幻觉的状况展开比较。该评估模型会定期更新,主要用以衡量这些模型在摘要环节引入虚假信息的频率。
据最新数据,报告明确了流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在这份排行榜里,谷歌的gemini2.0系列成绩优异,特别是Gemini-2.0-Flash-001,以0.7%的超低幻觉率位居首位,表明其处理文档时几乎不会引入虚假信息。Gemini-2.0-Pro-Exp和OpenAI的o3-mini-high-reasoning模型以0.8%的幻觉率紧跟其后,表现可圈可点。
报告还表明,尽管部分模型幻觉率有所攀升,但多数仍处于较低水平,且众多模型的事实一致性率超95%,这体现出它们确保信息真实的能力较强。值得一提的是,模型应答率普遍较高,绝大多数模型应答率接近100%,说明在理解和回应问题方面表现出众。
此外,排行榜提及不同模型的平均摘要长度,反映出模型在信息浓缩能力上的差异。总体而言,该排行榜为研究者、开发者提供重要参考数据,也方便普通用户了解大型语言模型当前的表现。具体排名入口:https://github.com/vectara/hallucination-leaderboard
© 版权声明
文章版权归作者所有,未经允许请勿转载。