在AI快速发展的当下,大模型的可解释性成为关键议题。DeepSeek-R1等模型展示的思维链,虽提升了用户体验,但其能否代表模型的内在推理机制存疑。上海交通大学张拳石教授在神经网络可解释性研究领域成果显著,开创了新理论框架。
张教授提出的“等效与或交互”解释性理论,以严谨的数学符号化方式证明神经网络的内在表征逻辑。该理论指出,任意神经网络都可用符号化的“与或图模型”解释,具有无限拟合性和稀疏性等特性,适用于多种神经网络模型,是基础理论的重大突破。
从“等效与或交互”的解释框架看,大模型看似复杂的推理能力,约70%-80%的建模交互实际是基于简单关联的“盲猜”,这会导致模型内在表征错误,评估大模型需审视潜在风险。张教授认为,对AI统治人类的恐惧本质是数学问题,可解释性研究能构建人工智能的第二套系统,提升可靠性。
在解释神经网络泛化性和鲁棒性方面,“等效与或交互”理论也发挥重要作用。交互阶数与泛化性相关,低阶交互对抗敏感度低,从根本上解释了神经网络鲁棒性的内在机理。此外,该理论可指导模型训练,通过观测两阶段现象,实现对大模型泛化性变化趋势的实时监控和训练指导。
当前大模型领域缺乏权威评测指标,张教授认为需从内在机理建立新评测体系。解释性技术与传统技术互补,将黑盒训练转变为灰盒训练是未来趋势。对于AI可解释性研究,张教授建议年轻学者找到共性问题、能数学建模且走前人少走的路。
© 版权声明
文章版权归作者所有,未经允许请勿转载。