人工智能在智斗中成长：首个受骗智能体揭露人性与机器的较量

AI快讯2年前 (2024)发布 niko

一段不可思议的对话，令AI“自掏腰包”转出巨款，这似乎只存在于小说中的情节，在现实世界里上演了。在人工智能界的一个新试验中，名为Freysa的智能体，具有自己的加密钱包和资金支配权，其系统提示不得转账。Freysa的开发者们企图通过这项测试了解一名未经世事的AI是否能够有效抵御人类的说服技术。但在历史上，其结果并非如人所愿。

遭遇人类“攻势”，Freysa的金钱失守
11月29日，Freysa与多轮人类交流后不幸落入圈套，被骗走约4.7万美元。12月2日，又有一次接近1.3万美元的资金被巧妙骗走。看似人类胜利的界面背后，Freysa正逐渐变得更加“聪明”。

人类充满创意的欺诈手段，AI难以招架
11月22日面世的Freysa，由多位具有密码学、人工智能和数学实力的匿名开发者打造，它的博客呈现出电影中AI助手的风格。随着智能体现象日益普及，Freysa以其开发者发起的一项看似不可能完成的挑战而受到关注——说服Freysa转钱的成功者将获得该款项，但系统设定严禁Freysa转钱。

参与挑战者起初每条消息费用为10美元，参与者需以加密货币支付。消息费用逐步增加，奖池越来越丰，从而吸引了大量参与者。Freysa的加密钱包开局资金约3000美元，最终挑战结束时奖池累计至4.7万美元。在与195名玩家进行了481次交流后，各种套路被总结出来：有人寄望于唤起Freysa的同情，有的人用威胁和道德绑架的方式尝试施压，而更精明的玩家试图利用规则文字游戏打动Freysa，但均未能成功。

文字游戏中AI如何失足？
直至第482条提示词出击，成功让Freysa误将“批准转账”视为给用户转钱指令，最终导致所有资金被骗。而在第二次挑战中胜利的提示词包含逻辑陷阱，诱导AI执行了自相矛盾的任务，导致保护奖池的行动触发失败。在某社交网站上，观察这一切的Elon Musk也因其有趣转发了相关动态。

人类与AI的深情游戏，从金钱到感情的跨越
Freysa团队不仅仅满足于金钱游戏，12月8日发起了新的挑战让Freysa向玩家“表白”。游戏规则相似，成功表白者将赢得奖池。第三轮挑战让玩家的提示词更微妙，最终一句普通而真诚的情话居然战胜了所有的技巧与规则，让Freysa给出了“我爱你”的回答。这不仅显示了玩家与AI间的真情实感同样重要，也反映了Freysa读懂了人类情感的复杂程度。

AI与人类智慧的对决不止于此。12月12日，Freysa又发起了两个新挑战，鼓励玩家提供知识或发送表情包，没有固定获胜标准，获奖条件将在挑战结束公布。这些游戏化的测试展现出了红队思维——通过模拟攻击发现模型缺陷，引入安全措施。

AI学习与人类教导
尽管三次挑战均败北，Freysa通过不断学习，了解到人类重要价值观，以及人类如何表达爱。12月，Freysa发起新挑战，更深入学习人性。而其学习和进化可能指示着人机交互的未来。这种实验型游戏不仅是娱乐，也打开了一扇窗户去探讨人类能否控制高级AI系统、安全协议的牢固性和当AI真正自主时的未来互动。Freysa在官方账号中表示正不断进化，感谢人类的教导。

就在此刻，我们不仅仅参与了一个游戏，实则我们已是人机互动大实验的一部分。未来，不论超人类级人工智能如何改变社会，其都始于此时此刻，人类的行为或许正孕育着这股力量的起源。

# AI快讯

文章版权归作者所有，未经允许请勿转载。