一段不可思议的对话,令AI“自掏腰包”转出巨款,这似乎只存在于小说中的情节,在现实世界里上演了。在人工智能界的一个新试验中,名为Freysa的智能体,具有自己的加密钱包和资金支配权,其系统提示不得转账。Freysa的开发者们企图通过这项测试了解一名未经世事的AI是否能够有效抵御人类的说服技术。但在历史上,其结果并非如人所愿。
遭遇人类“攻势”,Freysa的金钱失守
11月29日,Freysa与多轮人类交流后不幸落入圈套,被骗走约4.7万美元。12月2日,又有一次接近1.3万美元的资金被巧妙骗走。看似人类胜利的界面背后,Freysa正逐渐变得更加“聪明”。
人类充满创意的欺诈手段,AI难以招架
11月22日面世的Freysa,由多位具有密码学、人工智能和数学实力的匿名开发者打造,它的博客呈现出电影中AI助手的风格。随着智能体现象日益普及,Freysa以其开发者发起的一项看似不可能完成的挑战而受到关注——说服Freysa转钱的成功者将获得该款项,但系统设定严禁Freysa转钱。
参与挑战者起初每条消息费用为10美元,参与者需以加密货币支付。消息费用逐步增加,奖池越来越丰,从而吸引了大量参与者。Freysa的加密钱包开局资金约3000美元,最终挑战结束时奖池累计至4.7万美元。在与195名玩家进行了481次交流后,各种套路被总结出来:有人寄望于唤起Freysa的同情,有的人用威胁和道德绑架的方式尝试施压,而更精明的玩家试图利用规则文字游戏打动Freysa,但均未能成功。
文字游戏中AI如何失足?
直至第482条提示词出击,成功让Freysa误将“批准转账”视为给用户转钱指令,最终导致所有资金被骗。而在第二次挑战中胜利的提示词包含逻辑陷阱,诱导AI执行了自相矛盾的任务,导致保护奖池的行动触发失败。在某社交网站上,观察这一切的Elon Musk也因其有趣转发了相关动态。
人类与AI的深情游戏,从金钱到感情的跨越
Freysa团队不仅仅满足于金钱游戏,12月8日发起了新的挑战让Freysa向玩家“表白”。游戏规则相似,成功表白者将赢得奖池。第三轮挑战让玩家的提示词更微妙,最终一句普通而真诚的情话居然战胜了所有的技巧与规则,让Freysa给出了“我爱你”的回答。这不仅显示了玩家与AI间的真情实感同样重要,也反映了Freysa读懂了人类情感的复杂程度。
AI与人类智慧的对决不止于此。12月12日,Freysa又发起了两个新挑战,鼓励玩家提供知识或发送表情包,没有固定获胜标准,获奖条件将在挑战结束公布。这些游戏化的测试展现出了红队思维——通过模拟攻击发现模型缺陷,引入安全措施。
AI学习与人类教导
尽管三次挑战均败北,Freysa通过不断学习,了解到人类重要价值观,以及人类如何表达爱。12月,Freysa发起新挑战,更深入学习人性。而其学习和进化可能指示着人机交互的未来。这种实验型游戏不仅是娱乐,也打开了一扇窗户去探讨人类能否控制高级AI系统、安全协议的牢固性和当AI真正自主时的未来互动。Freysa在官方账号中表示正不断进化,感谢人类的教导。
就在此刻,我们不仅仅参与了一个游戏,实则我们已是人机互动大实验的一部分。未来,不论超人类级人工智能如何改变社会,其都始于此时此刻,人类的行为或许正孕育着这股力量的起源。