C-Eval

AI大模型评测

C-Eval

C-Eval是评估大模型能力的平台，提供多模型多科目测试结果，助您选模型与研究模型性能。

标签：AI大模型评测

链接直达 AI工具箱

豆包 - 豆包AI编程

「C-Eval」是什么

C-Eval是一个用于评估大模型能力的平台。它能对众多模型进行多维度的考核，让用户清晰了解模型在不同领域的表现。无论是公开访问的模型，还是受限访问的模型，都能在此找到相应的测试结果，为大家挑选合适的模型提供有力参考。

功能解析

多科目测试：对模型进行包括STEM、社会科学、人文科学等多科目的测试，全面衡量模型能力。
结果展示：清晰呈现不同模型的平均得分、不同难度下的得分等，方便用户对比。

产品特色

公开透明：将榜单分为公开访问模型和受限访问模型，公开模型的测试结果可供用户自行检查验证，保证了评估的公正性和可信度。
广泛覆盖：涵盖众多模型，为用户提供丰富的数据参考，能更全面地了解各模型的性能。

应用场景

模型选择场景：在众多模型中挑选时，可参考C-Eval的测试结果，了解模型在不同领域的优势与不足，从而选择最适合自己需求的模型。比如，需要处理专业技术问题，可查看STEM科目得分高的模型。
模型性能研究场景：研究人员通过C-Eval的结果，深入分析模型在不同知识领域的表现，为模型的优化和改进提供方向。

使用指南

访问C-Eval官网。
在官网中查看公开访问模型和受限访问模型的榜单。
根据自己的需求，查看相应模型的测试结果。
若想提交自己模型的预测结果，可点击特定链接，按提示操作即可。

相关导航

OpenCompass

OpenCompass是专业大模型评测平台，提供多维度评测和对比等功能，适用于研究机构和企业等。

SuperCLUE是中文通用大模型综合性测评基准，能多维度测试模型能力，为模型研发和选型提供参考。

FlagEval是专业的AI大模型评测平台，提供多维度评测和模型对比等功能。

HELM

HELM是一款全面评估语言模型的工具，具有多维度评估等功能和全面专业等特色，应用于研究与企业场景。

MMLU助力大模型语言理解能力评测，提供全面精准评估。

AG1-Eval

AG1-Eval是专业的AI大模型评测平台，提供权威榜单、支持人机评测、拥有多样评测集等。

AiPPT - 一键生成ppt

AI工具箱，全方位AI资源聚合平台，精选全球3000+优质免费AI应用，涵盖AI写作、AI编程、AI绘画、AI设计、AI论文、AI生成PPT、AI视频、AI配音、AI音乐、AI金融等多个领域领域的AI工具软件。致力于让AI技术触手可及，助力用户高效工作，加速技术创新与产业应用落地，推动智能生活与工作方式革新。

AI写作 AI设计 AI配音 AI音乐网站地图商务合作关于我们

鄂ICP备2024044990号-2