MC-Bench：用《我的世界》搭建的AI评估新舞台

AI快讯1年前 (2025)发布 niko

AI评估新探索：MC-Bench登场 在AI技术迅猛发展之际，有效评估生成式AI模型实力成为难题，传统基准测试方法有局限，而MC-Bench网站的出现带来新契机。这个由12年级学生创建的平台，利用微软旗下热门沙盒游戏《我的世界》开展AI模型评估。

“我的世界”成AI评测竞技场 MC-Bench提供直观有趣的评测方式。开发者输入提示让AI模型生成《我的世界》建筑，用户在“盲选”状态下投票，结束后才知作品“创造者”，这种机制更客观反映模型生成能力。选择《我的世界》作平台，不仅因其畅销，还在于其普及性和大众对视觉风格的熟悉度，可视化评估比文本指标更有说服力。

MC-Bench功能聚焦 目前MC-Bench主要进行简单建筑任务，如依据特定提示让AI模型编写代码创建游戏结构。这是编程基准测试，用户凭视觉判断优劣，提高了参与度和数据收集潜力。其设计理念是让大众直观感受AI发展水平，或许能为AI公司研发方向提供参考。项目背后有志愿贡献者，多家顶尖AI公司提供产品使用补贴，但与项目无其他关联。

MC-Bench的未来展望与开创性意义目前简单建筑只是起点，未来可能扩展到长期计划和目标导向任务，游戏或成测试AI“代理推理”能力的安全可控媒介。除MC-Bench外，其他游戏也曾作AI实验性基准测试，传统标准化评估有“主场优势”。MC-Bench为评估AI模型能力提供新颖视角，虽实际价值有待讨论，但提供了观察AI发展的新窗口。项目入口：https://top.aibase.com/tool/mc-bench

# AI快讯

文章版权归作者所有，未经允许请勿转载。