综合性中文大模型评估基准
斯坦福大学发布大型模型评估体系。
多任务语言理解基准,全面评估AI语言处理能力。
综合性中文大模型测评基准分析
开源大模型排行榜单由Hugging Face发布
上海人工智能实验室发布大模型开放评测体系。
全面评估中文基础模型的套件,提供专业评测服务。
匿名随机对战的众包LLM基准平台
复旦大学NLP实验室推出的大模型评测基准。
生物医学研究问答数据集与模型得分排名
多模态大模型能力评估体系全面解析
智源研究院发布天秤大模型评测平台FlagEval。
H2O.ai发布Elo评分法大模型评估系统。