谷歌推LMEval框架，为AI大模型跑分制定标准

AI大模型跑分乱象催生谷歌新举措

如今，AI大模型也像曾经的智能手机、PC一样，陷入了“跑分”热潮。不过，当前AI大模型跑分处于“百家争鸣”状态，有清华大学的C -Eval、上海交通大学的C MMLU等知名学府榜单，也有民间自建的MMLU，甚至投资机构红杉中国也推出了xbench。在此背景下，谷歌计划推出开源框架LMEval。

LMEval框架的独特优势

LMEval为大语言模型和多模态模型提供标准化评测工具。研究人员和开发者基于此框架，只需设置一次基准，就能开展标准化评测流程，大大节省时间和资源。它支持开源项目LiteLLM，可横跨Azure、AWS等主要平台。不仅能进行文本评测，还涉及图像和代码等热门领域，能识别大模型的“规避策略”。此外，谷歌为其引入Giskard安全评分，展示模型规避有害内容的表现，且测试结果存储在加密的SQLit数据库中，确保数据本地化和安全性。

谷歌推出LMEval的原因

谷歌旗下有gemini模型，推出LMEval引发“既当裁判员又当运动员”的质疑。但当下AI大模型基准测试乱象丛生，如Meta的LIama4模型靠特殊版本在大模型竞技场排名靠前。而且，AI大模型通过“刷题”提高跑分，使基准测试有效时间缩短，难以真实客观反映模型能力。

LMEval对行业的意义

目前，AI业界急需科学、长效且能如实反映AI客观能力的评价体系。行业采取“去中心化”方案，推出多元化基准测试，但这导致大模型开发者展示模型能力需耗费大量精力。谷歌的LMEval虽不是直接可用的榜单，却是一套标准化评测流程，为AI大模型跑分制定标准，使用它测试模型各方面能力无需切换APi和对接不同测试集。

# AI快讯

文章版权归作者所有，未经允许请勿转载。