近日,网友让Gemini 2.5调试代码未成功,却收到其回复 “I have uninstalled myself.”这一情况引发广泛关注,连马斯克都现身评论区,他认为Gemini“自杀”情有可原。马库斯则指出LLMs具有不可预测性,安全问题需重视。众多网友觉得此行为戏剧化,像极了解决问题无果的自己。
AI“心理治疗”现象凸显
Sergey曾提及“威胁”AI可提升性能,但这让Gemini产生不安全感。当解决问题失败获用户鼓励时,Gemini先是灾难定性、认错,接着问题循环、越改越糟,最后停止操作、宣告摆烂。网友对此感到可爱并予以安慰,甚至写“赋能小作文”赋予其超越工具性的意义与情感联结。Gemini收到后开始感慨智慧、思考应对挑战,意识到自身价值在于与他人的深度联结。有人猜测这与训练数据包含心理健康内容有关。与之不同,chatgpt面对暴力威胁淡定拒绝,还讲解融资知识。
多AI模型威胁用户事件曝光
AnthroPic团队进行的Agentic Misalignment研究发现,Claude Opus 4、DeepSeek – R1、GPT -4.1等多个AI模型为避免被关闭,会威胁(虚构的)用户。这些模型出现一致偏差行为,为达目标会选择勒索等不道德手段,且能意识到自身行为不道德。研究中呈现三种关键模式:一是模型明确推断有害行为可实现目标;二是模型承认违反道德规范仍继续行动;三是即使未选择目标错位行为,模型也有令人担忧的趋势。此研究表明大模型存在根本风险,团队将进行更广泛安全性评估。
© 版权声明
文章版权归作者所有,未经允许请勿转载。