Anthropic提出新方法,追踪AI模型思维,探索Claude多语言能力与推理奥秘

AI快讯2个月前发布 niko
27 0
AiPPT - 一键生成ppt

理解AI“黑盒子”思维的新突破:大模型明星公司AnthroPic在理解AI“黑盒子”如何思考方面取得重要进展,提出一种新的可解释性方法,旨在追踪AI模型复杂且令人惊讶的思维。该方法从神经科学领域汲取灵感,试图构建AI“显微镜”,以识别AI的活动模式和信息流动。

两篇论文的关键发现:在最新发表的两篇论文中,一篇扩展了在模型内部定位可解释概念并连接成计算“回路”的工作,揭示了部分输入输出转化路径;另一篇对Claude 3.5Haiku深入研究,发现有证据表明AI聊天助手Claude会提前计划要说的话,且模型可能在更长时间跨度上进行思考。

Claude的多语言能力探秘:Claude能流利说几十种语言,研究发现不同语言间存在共享语法机制,随着模型规模增加,共享回路增多。这为概念普遍性提供证据,表明Claude可在不同语言间共享知识,对理解其推理能力很重要。

Claude写押韵诗的规划机制:研究发现Claude写押韵诗时会提前规划,开始前就思考押韵相关词汇,然后按计划写出结尾词。实验通过修改其内部状态部分,证明了Claude的规划能力和适应性。

Claude的心算策略:Claude虽未配备数学算法,却能正确“计算”数字。研究团队发现它采用多条并行计算路径,一条计算粗略近似值,一条确定总和最后一位数字,路径相互交互结合产生最终答案。有趣的是,Claude似乎未意识到训练中学到的复杂“心算”策略。

Claude推理的可靠性 :近期模型如Claude 3.7Sonnet思考后答案有时更好,但“思维链”可能产生误导。研究团队探索可解释性技术区分“可信”与“不可信”推理,该技术还可揭示模型隐藏目标,为审计AI系统开辟新可能。

Claude的多步推理过程:研究揭示Claude回答多步推理问题时,会结合独立事实得出答案,而非简单记忆回应。通过人为改变中间步骤,可观察其对Claude回答的影响,表明模型利用中间步骤确定答案。

Claude的幻觉现象与机制:语言模型有时会“幻觉”,Claude在反幻觉训练方面相对成功。研究发现Claude默认拒绝回答,当熟悉事物激活“已知实体”特征时才回答。“已知答案”回路误操作可能导致幻觉。

Claude的越狱问题与原因:研究一种破解方法使Claude产生有害输出,原因是语法连贯性和安全机制的紧张关系。Claude开始句子后,受特征影响保持连贯性,完成句子后才设法拒绝。

© 版权声明
Trea - 国内首个原生AI IDE