Anthropic提出新方法，追踪AI模型思维，探索Claude多语言能力与推理奥秘

理解AI“黑盒子”思维的新突破：大模型明星公司AnthroPic在理解AI“黑盒子”如何思考方面取得重要进展，提出一种新的可解释性方法，旨在追踪AI模型复杂且令人惊讶的思维。该方法从神经科学领域汲取灵感，试图构建AI“显微镜”，以识别AI的活动模式和信息流动。

两篇论文的关键发现：在最新发表的两篇论文中，一篇扩展了在模型内部定位可解释概念并连接成计算“回路”的工作，揭示了部分输入输出转化路径；另一篇对 Claude 3.5Haiku深入研究，发现有证据表明AI聊天助手Claude会提前计划要说的话，且模型可能在更长时间跨度上进行思考。

Claude的多语言能力探秘：Claude能流利说几十种语言，研究发现不同语言间存在共享语法机制，随着模型规模增加，共享回路增多。这为概念普遍性提供证据，表明Claude可在不同语言间共享知识，对理解其推理能力很重要。

Claude写押韵诗的规划机制：研究发现Claude写押韵诗时会提前规划，开始前就思考押韵相关词汇，然后按计划写出结尾词。实验通过修改其内部状态部分，证明了Claude的规划能力和适应性。

Claude的心算策略：Claude虽未配备数学算法，却能正确“计算”数字。研究团队发现它采用多条并行计算路径，一条计算粗略近似值，一条确定总和最后一位数字，路径相互交互结合产生最终答案。有趣的是，Claude似乎未意识到训练中学到的复杂“心算”策略。

Claude推理的可靠性 ：近期模型如Claude 3.7Sonnet思考后答案有时更好，但“思维链”可能产生误导。研究团队探索可解释性技术区分“可信”与“不可信”推理，该技术还可揭示模型隐藏目标，为审计AI系统开辟新可能。

Claude的多步推理过程：研究揭示Claude回答多步推理问题时，会结合独立事实得出答案，而非简单记忆回应。通过人为改变中间步骤，可观察其对Claude回答的影响，表明模型利用中间步骤确定答案。

Claude的幻觉现象与机制：语言模型有时会“幻觉”，Claude在反幻觉训练方面相对成功。研究发现Claude默认拒绝回答，当熟悉事物激活“已知实体”特征时才回答。“已知答案”回路误操作可能导致幻觉。

Claude的越狱问题与原因：研究一种破解方法使Claude产生有害输出，原因是语法连贯性和安全机制的紧张关系。Claude开始句子后，受特征影响保持连贯性，完成句子后才设法拒绝。

文章版权归作者所有，未经允许请勿转载。