高中生用《我的世界》创建AI评测基准MC-Bench

衡量AI智能程度的传统方法，如让其解数学题、写代码或参加标准化考试，虽严谨但不直观。近期，高三学生AdiSingh另辟蹊径，借助《我的世界》开发出AI评测基准MC-Bench。

传统的标准化测试存在“基准测试的陷阱”，AI模型在特定测试中表现出色，实际应用却易犯低级错误。例如，OpenAI的GPT-4在LSAT考试中超越多数人类，却数不清“strawberry”中“R”的个数；AnthroPic的 Claude3.7编码能力强，但玩《宝可梦》不如5岁小孩。

Adi Singh的MC-Bench核心机制独特：让不同AI模型在《我的世界》里按相同提示生成建筑作品，用户投票选出更好作品，投票结束后揭晓建造者。

选择《我的世界》进行评测有诸多优势。游戏能模拟真实世界复杂度，考验AI的问题解决等能力；可评估AI的自主决策能力；提供可控且安全的测试环境；全球用户众多，能形成众包数据；视觉化建筑作品易于理解和评判，降低参与门槛，还能测试AI的复杂能力。

MC-Bench是公开网站，团队仅8名志愿者维持开发和维护。Anthropic、Google、OpenAI和阿里巴巴等大型AI公司提供模型访问权限用于测试。目前，Claude3.7 Sonnet在MC-Bench胜率最高，DeepSeek-R1排第三。

Adi Singh计划拓展MC-Bench到更复杂任务，且认为其排行榜与个人体验相符，能为AI公司提供有价值见解。未来，游戏化的AI评测方式或许将成为主流。

文章版权归作者所有，未经允许请勿转载。