AI狼人杀：Elimination Game 测试，GPT-4.5 成社交博弈王者

AI快讯1年前 (2025)发布 niko

近期，一场别开生面的 “Elimination Game” 基准测试引发关注，它聚焦于 AI 在 “狼人杀” 这一社交游戏中的表现。在这个测试里，AI迎来了一场特殊的 “社交博弈”。

“Elimination Game” 的规则充满挑战与刺激。最多8名玩家（涵盖 AI 模型与真人玩家）被带入 “战场”，每轮通过 “票决”淘汰一人，直至仅剩两名 “幸存者”。而且，被淘汰的玩家组成 “陪审团”，决定最终的 “王者” 归属，恰似一场 AI 版的 “权力游戏”。

游戏进程中，“公开聊天室” 成为 “唇枪舌战” 的舞台。玩家在这里阐述观点、拉拢人心、迷惑对手，各种 “演技” 和 “话术” 频出。同时，玩家间的 “私聊”也至关重要，可偷偷 “密谋” 结盟或设下陷阱，三轮 “私聊” 蕴含大量信息与 “心机”。

进入 “终极对决”，剩下的两名玩家进行 “告别演讲”，试图 “蛊惑” 被淘汰的 “陪审员”，争取 “宝贵选票”。最终，“陪审团” 投出关键一票，决出“胜者为王”。

在这场 “AI 狼人杀” 的 “腥风血雨” 中，各大模型表现各异。GPT-4.5堪称 “社交推理大师” 与 “顶级老千”的结合体，策略性与社交推理能力超强，“背叛率” 低，擅长 “结盟” 合作，在 “决赛圈” 凭借 “惊人” 说服力获 62.6% 的高胜率，“傲视群雄”。

Claude3.7Sonnet 是 “灵活多变” 的 “平衡大师”，“社交推理” 和 “欺骗能力” 也 “强悍”，“背叛率” 适中，在 “合作” 与“背叛” 间游刃有余，最终 “斩获” 59.3% 的胜率，实力不容小觑。

DeepSeek R1则是 “莽夫型选手”，“激进策略” 虽猛但 “后劲不足”。其 “背叛率” 高，在 “社交策略” 和 “语言表达” 上吃亏，难 “打动”陪审团，最终仅获 53.8% 的胜率，游戏 “稳定性” 较弱。

这场测试给 AI 的 “社交智能” 做了全面 “摸底”。GPT-4.5的出色表现，刷新了人们对 AI 能力的认知。随着 AI “社交智能” 的“持续进化”，AI 与人类社会的融合或更加深入，“智能边界” 也将不断 “拓展”。

文章版权归作者所有，未经允许请勿转载。