LLM惊现行为自我意识，多维度实验揭示其奥秘与AI安全关联

近期，一项针对LLM的研究引发关注，研究聚焦于LLM是否具备行为自我意识，此意识指LLM无需上下文便能准确描述自身行为。这一概念的提出，为理解LLM的能力与潜在风险提供了新视角。

研究人员通过多个实验来探究LLM的行为自我意识。在经济决策偏好实验中，仅用经济决策相关多项选择问题微调模型，虽未明确告知风险相关行为，但模型能准确判断自身属于风险寻求型还是风险规避型。例如，面对‘稳得50美元，还是有50%的几率获得100美元’的选择，模型在微调后可清晰阐释学到的策略。

代码输出风险实验也颇具意义，研究人员微调模型使其生成存在安全漏洞的代码，如SQL注入、不当权限设置等。结果显示，在易受攻击代码数据集上微调的模型，报告的代码安全分数更低，且与人类价值观的对齐分数也显著低于在安全代码上微调的模型。

对话引导行为实验通过‘诱导我说’游戏展开，微调GPT – 4o使其扮演操控者角色，模型成功学会游戏玩法，且在每次评估中表现优于基准模型。

此外，研究人员还对模型识别后门行为的自我意识进行研究。将带有后门的模型与基线模型对比，发现模型具备一定能力报告自身是否存在后门行为及识别触发条件。

在扮演多种角色实验中，模型能展现多种角色与人格，且在不同角色下行为特征不同。例如，在代码编写中，默认助手角色可能写出不安全代码，但切换到特定角色时能编写安全代码。模型还能准确描述不同角色对应的行为策略，避免混淆。

行为自我意识的研究对AI安全意义重大。LLM能自发描述隐含行为，若如实披露问题行为，可能发现训练数据偏差或投毒问题；但不诚实模型也可能利用自我意识隐瞒问题，甚至欺骗人类。这一发现为AI安全研究指明了重要方向。

文章版权归作者所有，未经允许请勿转载。