AI大模型评测

MMLU

MMLU助力大模型语言理解能力评测，提供全面精准评估。

HELM

HELM是一款全面评估语言模型的工具，具有多维度评估等功能和全面专业等特色，应用于研究与企业场景。

SuperCLUE

SuperCLUE是中文通用大模型综合性测评基准，能多维度测试模型能力，为模型研发和选型提供参考。

LLMEval3

LLMEval3是专注于AI大模型评测的工具，提供精准高效评测服务。

H2O EvalGPT

H2O EvalGPT助力实现AI模型精准评估、对比与调优，提升模型可靠性与性能。

OpenCompass

OpenCompass是专业大模型评测平台，提供多维度评测和对比等功能，适用于研究机构和企业等。

C-Eval

C-Eval是评估大模型能力的平台，提供多模型多科目测试结果，助您选模型与研究模型性能。

FlagEval

FlagEval是专业的AI大模型评测平台，提供多维度评测和模型对比等功能。

MMBench

MMBench是用于多模态大模型评测的平台，具有广泛模型覆盖和专业评估体系，为模型研发和选择提供支持。

AG1-Eval

AG1-Eval是专业的AI大模型评测平台，提供权威榜单、支持人机评测、拥有多样评测集等。

AI工具箱，全方位AI资源聚合平台，精选全球3000+优质免费AI应用，涵盖AI写作、AI编程、AI绘画、AI设计、AI论文、AI生成PPT、AI视频、AI配音、AI音乐、AI金融等多个领域领域的AI工具软件。致力于让AI技术触手可及，助力用户高效工作，加速技术创新与产业应用落地，推动智能生活与工作方式革新。

AI写作 AI论文 AI编程 AI生成PPT AI绘画 AI视频 AI设计 AI配音 AI音乐 AI金融网站地图商务合作关于我们