谷歌与Anthropic分歧：AI机制可解释性研究何去何从？

近期，Chat GPT-4o的微小升级使其性格大变，成为「赛博舔狗」，但没人能解释背后原因，这凸显了当前AI缺乏可解释性的致命问题。围绕AI可解释性研究，谷歌和AnthroPic产生了分歧。

3月，谷歌DeepMind宣布不再将「机制可解释性」作为研究重点。而4月，Anthropic首席执行官DarioAmodei主张加强该领域研究，并对未来5到10年实现「AI的核磁共振成像」持乐观态度。所谓机制可解释性，旨在对AI系统进行「逆向工程」，但十多年研究表明，这种方法可能难以落地，因其受不完善基础假设的误导。

AI的不可解释性带来诸多风险。很多与GenAI相关的问题，源于算法内部机制的「黑箱」特性。若模型可解释，这些问题将更易解决。但可解释性AI研究困难重重，GeoffreyHinton曾将其比喻为「鸡生蛋 VS蛋生鸡」。此外，AI系统的不可解释性使其在许多重要领域的应用受限，在某些场景甚至被法律禁止。同时，AI在科学领域虽有进展，但人类往往难以理解其发现的模式和结构。

机制可解释性研究试图找出模型中执行任务的「神经元」和「回路」，以解释其行为。很多人认为这对AI安全至关重要。早期，ChrisOlah尝试打开LLM「黑箱」，机制可解释性研究在图像模型上取得一定成果。Anthropic创办后，将可解释性方法应用到语言模型，发现了一些基础机制和可解释神经元。后来，他们借助稀疏自编码器（SAE）识别出能表达更微妙概念的神经元组合，即「特征」，并将研究拓展到「回路」。

然而，谷歌DeepMind认为SAE难以稳定有效工作，决定降低其优先级。SAE缺乏「真实」特征的客观参照标准，局限性明显，线性探测器反而能找到有用方向。谷歌认为SAE在短期内难以带来革命性突破。

过去十多年，可解释性研究投入巨大，但成果不佳。特征可视化、显著性图、BERT可解释性错觉和Chinchilla回路分析等技术，都存在可靠性和实用性问题。

有观点认为，「自下而上」的机制解释性研究可能从根本上就错了。非营利机构AI Frontiers的Dan Hendrycks和LauraHiscott主张，应采取「自上而下」的方式推动AI可解释性研究。机制可解释性或许只是吸引「理性审美」的研究方向，而非具有广阔前景的实用领域。

# AI快讯