幻觉排行榜揭晓大型语言模型在文档摘要中的表现

近期，Vectara公布“幻觉排行榜”报告，借助其Hughes幻觉评估模型（HHEM-2.1），对不同大型语言模型在总结短文档时产生幻觉的状况展开比较。该评估模型会定期更新，主要用以衡量这些模型在摘要环节引入虚假信息的频率。

据最新数据，报告明确了流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在这份排行榜里，谷歌的gemini2.0系列成绩优异，特别是Gemini-2.0-Flash-001，以0.7%的超低幻觉率位居首位，表明其处理文档时几乎不会引入虚假信息。Gemini-2.0-Pro-Exp和OpenAI的o3-mini-high-reasoning模型以0.8%的幻觉率紧跟其后，表现可圈可点。

报告还表明，尽管部分模型幻觉率有所攀升，但多数仍处于较低水平，且众多模型的事实一致性率超95%，这体现出它们确保信息真实的能力较强。值得一提的是，模型应答率普遍较高，绝大多数模型应答率接近100%，说明在理解和回应问题方面表现出众。

此外，排行榜提及不同模型的平均摘要长度，反映出模型在信息浓缩能力上的差异。总体而言，该排行榜为研究者、开发者提供重要参考数据，也方便普通用户了解大型语言模型当前的表现。具体排名入口：https://github.com/vectara/hallucination-leaderboard

# AI快讯

文章版权归作者所有，未经允许请勿转载。