AI狼人杀:Elimination Game 测试,GPT-4.5 成社交博弈王者

AI快讯3个月前发布 niko
17 0
AiPPT - 一键生成ppt

近期,一场别开生面的 “Elimination Game” 基准测试引发关注,它聚焦于 AI 在 “狼人杀” 这一社交游戏中的表现。在这个测试里,AI迎来了一场特殊的 “社交博弈”。

“Elimination Game” 的规则充满挑战与刺激。最多8名玩家(涵盖 AI 模型与真人玩家)被带入 “战场”,每轮通过 “票决”淘汰一人,直至仅剩两名 “幸存者”。而且,被淘汰的玩家组成 “陪审团”,决定最终的 “王者” 归属,恰似一场 AI 版的 “权力游戏”。

游戏进程中,“公开聊天室” 成为 “唇枪舌战” 的舞台。玩家在这里阐述观点、拉拢人心、迷惑对手,各种 “演技” 和 “话术” 频出。同时,玩家间的 “私聊”也至关重要,可偷偷 “密谋” 结盟或设下陷阱,三轮 “私聊” 蕴含大量信息与 “心机”。

进入 “终极对决”,剩下的两名玩家进行 “告别演讲”,试图 “蛊惑” 被淘汰的 “陪审员”,争取 “宝贵选票”。最终,“陪审团” 投出关键一票,决出“胜者为王”。

在这场 “AI 狼人杀” 的 “腥风血雨” 中,各大模型表现各异。GPT-4.5堪称 “社交推理大师” 与 “顶级老千”的结合体,策略性与社交推理能力超强,“背叛率” 低,擅长 “结盟” 合作,在 “决赛圈” 凭借 “惊人” 说服力获 62.6% 的高胜率,“傲视群雄”。

Claude3.7Sonnet 是 “灵活多变” 的 “平衡大师”,“社交推理” 和 “欺骗能力” 也 “强悍”,“背叛率” 适中,在 “合作” 与“背叛” 间游刃有余,最终 “斩获” 59.3% 的胜率,实力不容小觑。

DeepSeek R1则是 “莽夫型选手”,“激进策略” 虽猛但 “后劲不足”。其 “背叛率” 高,在 “社交策略” 和 “语言表达” 上吃亏,难 “打动”陪审团,最终仅获 53.8% 的胜率,游戏 “稳定性” 较弱。

这场测试给 AI 的 “社交智能” 做了全面 “摸底”。GPT-4.5的出色表现,刷新了人们对 AI 能力的认知。随着 AI “社交智能” 的“持续进化”,AI 与人类社会的融合或更加深入,“智能边界” 也将不断 “拓展”。

© 版权声明
Trea - 国内首个原生AI IDE