近期,ChatGPT-4o的微小升级使其性格大变,成为「赛博舔狗」,但没人能解释背后原因,这凸显了当前AI缺乏可解释性的致命问题。围绕AI可解释性研究,谷歌和AnthroPic产生了分歧。
3月,谷歌DeepMind宣布不再将「机制可解释性」作为研究重点。而4月,Anthropic首席执行官DarioAmodei主张加强该领域研究,并对未来5到10年实现「AI的核磁共振成像」持乐观态度。所谓机制可解释性,旨在对AI系统进行「逆向工程」,但十多年研究表明,这种方法可能难以落地,因其受不完善基础假设的误导。
AI的不可解释性带来诸多风险。很多与GenAI相关的问题,源于算法内部机制的「黑箱」特性。若模型可解释,这些问题将更易解决。但可解释性AI研究困难重重,GeoffreyHinton曾将其比喻为「鸡生蛋 VS蛋生鸡」。此外,AI系统的不可解释性使其在许多重要领域的应用受限,在某些场景甚至被法律禁止。同时,AI在科学领域虽有进展,但人类往往难以理解其发现的模式和结构。
机制可解释性研究试图找出模型中执行任务的「神经元」和「回路」,以解释其行为。很多人认为这对AI安全至关重要。早期,ChrisOlah尝试打开LLM「黑箱」,机制可解释性研究在图像模型上取得一定成果。Anthropic创办后,将可解释性方法应用到语言模型,发现了一些基础机制和可解释神经元。后来,他们借助稀疏自编码器(SAE)识别出能表达更微妙概念的神经元组合,即「特征」,并将研究拓展到「回路」。
然而,谷歌DeepMind认为SAE难以稳定有效工作,决定降低其优先级。SAE缺乏「真实」特征的客观参照标准,局限性明显,线性探测器反而能找到有用方向。谷歌认为SAE在短期内难以带来革命性突破。
过去十多年,可解释性研究投入巨大,但成果不佳。特征可视化、显著性图、BERT可解释性错觉和Chinchilla回路分析等技术,都存在可靠性和实用性问题。
有观点认为,「自下而上」的机制解释性研究可能从根本上就错了。非营利机构AI Frontiers的Dan Hendrycks和LauraHiscott主张,应采取「自上而下」的方式推动AI可解释性研究。机制可解释性或许只是吸引「理性审美」的研究方向,而非具有广阔前景的实用领域。