谷歌推LMEval框架,为AI大模型跑分制定标准

AI快讯3周前发布 niko
11 0
AiPPT - 一键生成ppt

AI大模型跑分乱象催生谷歌新举措

如今,AI大模型也像曾经的智能手机、PC一样,陷入了“跑分”热潮。不过,当前AI大模型跑分处于“百家争鸣”状态,有清华大学的C -Eval、上海交通大学的CMMLU等知名学府榜单,也有民间自建的MMLU,甚至投资机构红杉中国也推出了xbench。在此背景下,谷歌计划推出开源框架LMEval。

LMEval框架的独特优势

LMEval为大语言模型和多模态模型提供标准化评测工具。研究人员和开发者基于此框架,只需设置一次基准,就能开展标准化评测流程,大大节省时间和资源。它支持开源项目LiteLLM,可横跨Azure、AWS等主要平台。不仅能进行文本评测,还涉及图像和代码等热门领域,能识别大模型的“规避策略”。此外,谷歌为其引入Giskard安全评分,展示模型规避有害内容的表现,且测试结果存储在加密的SQLit数据库中,确保数据本地化和安全性。

谷歌推出LMEval的原因

谷歌旗下有gemini模型,推出LMEval引发“既当裁判员又当运动员”的质疑。但当下AI大模型基准测试乱象丛生,如Meta的LIama4模型靠特殊版本在大模型竞技场排名靠前。而且,AI大模型通过“刷题”提高跑分,使基准测试有效时间缩短,难以真实客观反映模型能力。

LMEval对行业的意义

目前,AI业界急需科学、长效且能如实反映AI客观能力的评价体系。行业采取“去中心化”方案,推出多元化基准测试,但这导致大模型开发者展示模型能力需耗费大量精力。谷歌的LMEval虽不是直接可用的榜单,却是一套标准化评测流程,为AI大模型跑分制定标准,使用它测试模型各方面能力无需切换APi和对接不同测试集。

© 版权声明
Trea - 国内首个原生AI IDE