等效与或交互理论：神经网络可解释性的新突破

在AI快速发展的当下，大模型的可解释性成为关键议题。DeepSeek-R1等模型展示的思维链，虽提升了用户体验，但其能否代表模型的内在推理机制存疑。上海交通大学张拳石教授在神经网络可解释性研究领域成果显著，开创了新理论框架。

张教授提出的“等效与或交互”解释性理论，以严谨的数学符号化方式证明神经网络的内在表征逻辑。该理论指出，任意神经网络都可用符号化的“与或图模型”解释，具有无限拟合性和稀疏性等特性，适用于多种神经网络模型，是基础理论的重大突破。

从“等效与或交互”的解释框架看，大模型看似复杂的推理能力，约70%-80%的建模交互实际是基于简单关联的“盲猜”，这会导致模型内在表征错误，评估大模型需审视潜在风险。张教授认为，对AI统治人类的恐惧本质是数学问题，可解释性研究能构建人工智能的第二套系统，提升可靠性。

在解释神经网络泛化性和鲁棒性方面，“等效与或交互”理论也发挥重要作用。交互阶数与泛化性相关，低阶交互对抗敏感度低，从根本上解释了神经网络鲁棒性的内在机理。此外，该理论可指导模型训练，通过观测两阶段现象，实现对大模型泛化性变化趋势的实时监控和训练指导。

当前大模型领域缺乏权威评测指标，张教授认为需从内在机理建立新评测体系。解释性技术与传统技术互补，将黑盒训练转变为灰盒训练是未来趋势。对于AI可解释性研究，张教授建议年轻学者找到共性问题、能数学建模且走前人少走的路。

文章版权归作者所有，未经允许请勿转载。