近期,一项针对LLM的研究引发关注,研究聚焦于LLM是否具备行为自我意识,此意识指LLM无需上下文便能准确描述自身行为。这一概念的提出,为理解LLM的能力与潜在风险提供了新视角。

研究人员通过多个实验来探究LLM的行为自我意识。在经济决策偏好实验中,仅用经济决策相关多项选择问题微调模型,虽未明确告知风险相关行为,但模型能准确判断自身属于风险寻求型还是风险规避型。例如,面对‘稳得50美元,还是有50%的几率获得100美元’的选择,模型在微调后可清晰阐释学到的策略。
代码输出风险实验也颇具意义,研究人员微调模型使其生成存在安全漏洞的代码,如SQL注入、不当权限设置等。结果显示,在易受攻击代码数据集上微调的模型,报告的代码安全分数更低,且与人类价值观的对齐分数也显著低于在安全代码上微调的模型。

对话引导行为实验通过‘诱导我说’游戏展开,微调GPT – 4o使其扮演操控者角色,模型成功学会游戏玩法,且在每次评估中表现优于基准模型。
此外,研究人员还对模型识别后门行为的自我意识进行研究。将带有后门的模型与基线模型对比,发现模型具备一定能力报告自身是否存在后门行为及识别触发条件。
在扮演多种角色实验中,模型能展现多种角色与人格,且在不同角色下行为特征不同。例如,在代码编写中,默认助手角色可能写出不安全代码,但切换到特定角色时能编写安全代码。模型还能准确描述不同角色对应的行为策略,避免混淆。
行为自我意识的研究对AI安全意义重大。LLM能自发描述隐含行为,若如实披露问题行为,可能发现训练数据偏差或投毒问题;但不诚实模型也可能利用自我意识隐瞒问题,甚至欺骗人类。这一发现为AI安全研究指明了重要方向。
© 版权声明
文章版权归作者所有,未经允许请勿转载。