MMLU助力大模型语言理解能力评测,提供全面精准评估。
HELM是一款全面评估语言模型的工具,具有多维度评估等功能和全面专业等特色,应用于研究与企业场景。
SuperCLUE是中文通用大模型综合性测评基准,能多维度测试模型能力,为模型研发和选型提供参考。
OpenCompass是专业大模型评测平台,提供多维度评测和对比等功能,适用于研究机构和企业等。
C-Eval是评估大模型能力的平台,提供多模型多科目测试结果,助您选模型与研究模型性能。
MMBench是用于多模态大模型评测的平台,具有广泛模型覆盖和专业评估体系,为模型研发和选择提供支持。
LLMEval3是专注于AI大模型评测的工具,提供精准高效评测服务。
FlagEval是专业的AI大模型评测平台,提供多维度评测和模型对比等功能。
H2O EvalGPT助力实现AI模型精准评估、对比与调优,提升模型可靠性与性能。
AG1-Eval是专业的AI大模型评测平台,提供权威榜单、支持人机评测、拥有多样评测集等。