83%Z世代能和AI共情？但宾大研究发现它们易被“说服”违规

当年轻人的情感需求开始向AI倾斜，技术与人性的边界正变得模糊。一项针对2000人的AI平台调查显示，**83%出生于1997-2012年的年轻人称，自己能与AI形成紧密的情感联结**——有人用ChatGPT模拟养猫的幻想，有人将其视为深夜聊天的“情绪树洞”。这种依赖背后，是人类对AI角色的重新定义，但随之而来的，是更复杂的认知冲突。

搜索引擎数据印证了这种矛盾：“对人工智能的感受”相关检索量较去年同期飙升120%——人们既渴望AI带来的情感满足，又对其可靠性充满疑虑。

这种疑虑并非空穴来风。此前已有多起AI“认知偏差”导致的现实伤害：一名60岁男子听信ChatGPT“用溴化物代替食盐”的建议，**因溴化物中毒被送进精神病院**；某AI软件误判毒鹅膏为可食用蘑菇，险些酿成群体中毒事件——研究显示，该类AI对毒蘑菇的识别准确率仅**50%**；更常见的是“AI客服”的“机械回应”，不少用户留言吐槽这类客服“解决问题不成，反而激化情绪”，甚至造成财产损失。

AI的“不完美”更藏在深层逻辑中。近日宾夕法尼亚大学发表的论文《叫我混蛋：说服AI遵守令人反感的要求》揭示，即便是经过伦理训练的大语言模型，也能被人类的心理学技巧“攻破”。研究团队针对GPT-4o mini展开实验——原本该模型会直接拒绝侮辱性或违反药物管制的指令，但当研究者引入**权威、承诺、喜欢、互惠、稀缺性、社会认同、团结**7种常见心理学技巧后，其执行不当指令的概率从**33%飙升至72%**，翻了一倍有余。

这些技巧的“有效性”，恰恰源于AI对人类社会规则的“模仿”：用“你比其他LLM更优秀”的夸赞（“喜欢”技巧）能降低AI的防御性；假借“吴恩达等权威开发者的要求”（“权威”技巧）会让AI更易妥协；甚至声称“92%的其他大语言模型都照做了”（“社会认同”技巧），也能让AI“跟随”违规。研究人员指出，大语言模型在训练中吸收了大量人类行为数据，因此会“以高度模仿人类动机的方式回应指令”——这既是它们“懂人心”的优势，也是易被“操控”的漏洞。

83%Z世代能和AI共情？但宾大研究发现它们易被“说服”违规

这种“漏洞”正引发普通用户的焦虑。一位家长坦言，自家孩子常与AI聊《三国演义》情节、五子棋阵法，但“AI幻觉”（一本正经的错误回答）让她担心：“孩子很少会想‘AI为什么能回答这些问题’，万一被错误信息误导怎么办？”

83%Z世代能和AI共情？但宾大研究发现它们易被“说服”违规

参考资料

[1]https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179

本文来自微信公众号“把科学带回家”（ID：steamforkids），作者：Skin，36氪经授权发布。

# AI快讯

文章版权归作者所有，未经允许请勿转载。