衡量AI智能程度的传统方法,如让其解数学题、写代码或参加标准化考试,虽严谨但不直观。近期,高三学生AdiSingh另辟蹊径,借助《我的世界》开发出AI评测基准MC-Bench。
传统的标准化测试存在“基准测试的陷阱”,AI模型在特定测试中表现出色,实际应用却易犯低级错误。例如,OpenAI的GPT-4在LSAT考试中超越多数人类,却数不清“strawberry”中“R”的个数;AnthroPic的Claude3.7编码能力强,但玩《宝可梦》不如5岁小孩。
Adi Singh的MC-Bench核心机制独特:让不同AI模型在《我的世界》里按相同提示生成建筑作品,用户投票选出更好作品,投票结束后揭晓建造者。
选择《我的世界》进行评测有诸多优势。游戏能模拟真实世界复杂度,考验AI的问题解决等能力;可评估AI的自主决策能力;提供可控且安全的测试环境;全球用户众多,能形成众包数据;视觉化建筑作品易于理解和评判,降低参与门槛,还能测试AI的复杂能力。
MC-Bench是公开网站,团队仅8名志愿者维持开发和维护。Anthropic、Google、OpenAI和阿里巴巴等大型AI公司提供模型访问权限用于测试。目前,Claude3.7 Sonnet在MC-Bench胜率最高,DeepSeek-R1排第三。
Adi Singh计划拓展MC-Bench到更复杂任务,且认为其排行榜与个人体验相符,能为AI公司提供有价值见解。未来,游戏化的AI评测方式或许将成为主流。
© 版权声明
文章版权归作者所有,未经允许请勿转载。