最近,在人工智能领域内,Yoshua Bengio和Yann LeCun两位著名学者接连提出见解,关于AI是否可以在掌握语言之前先学会思考的议题被再度放在了聚光灯下。
Yoshua Bengio近期在媒体专栏中提到,\”AI可以在对话之前就学会思考\”,他认为实现内心的深思熟虑是构建人工通用智能(AGI)道路的一个里程碑。数月前,Yann LeCun也反复表达了相似的看法。
至今年为止,大型语言模型(LLM)的发展似乎开始偏离初衷。例如,受到极大关注的o1模型,在数学和代码能力上的提升最为显著;而该模型所在的团队亦强调了其\”推理\”和\”思考\”的能力。
最新的[ChatGPT](https://ai-kit.cn/sites/1007.html)更新,集中于帮助程序开发者在集成环境IDE中使用AI编写代码,而对于LLM内嵌的’Language’能力,则不再强调其重要性。
‘图灵三杰’之一、蒙特利尔大学的Yoshua Bengio在媒体发文提出,AI的思考可能与语言无关,而目前看重推理、思考、长期规划能力的发展方向,可能是通往AGI的关键路径。
他指出,这种推理思考能力的提升可能会使我们更接近于人类水平的智能推理,我在最新专栏文章中探讨了这方面的可能。
Bengio肯定的是一种名为思维链(CoT)的思考方法,他认为,解锁推理能力将会是AGI的一个里程碑。
一直以来,人们认为传统神经网络更符合’系统1’认知(system 1 cognition),这是一种直接而直观的答案,比如人脸识别;然而人类智能依赖的是’系统2’认知(system 2 cognition),涉及深入的大脑思考,并进行强大的形式推理,比如解数学题或详细规划。这种认知使我们能够以逻辑的方式组织已知的知识。
所谓的’系统1’是快速的、本能的、情绪化的;’系统2’则是缓慢的、审慎的和逻辑的。这种对’系统1’和’系统2’认知模式的区分最早由心理学家Daniel Kahneman提出,他也是2002年诺贝尔经济学奖得主。Kahneman在著作《Thinking, Fast and Slow》中详细阐述了这个理论,并被《纽约时报》评为年度畅销书。
而目前OpenAI备受关注的进展——如o1模型为代表的能够进行深度内部思考的AI,具体的细节还未对外公开。
Bengio提出,better reasoning ability(更好的推理能力)将解决当前AI的两个主要缺点:缺乏答案的一致性以及难以实现长期规划和目标。这两者在实际应用中非常重要,前者对科学研究非常关键,后者则是创建自主智能体的核心。
探索’推理’背后原理是20世纪人工智能研究的核心。成功的例子包括击败围棋冠军的AlphaGo,以及最近达到IMO银牌水平的AlphaProof。
这些系统中,神经网络学习预测某个行动对结果是否有用,然后从这种’直觉“开始,有效地搜索可能的行动序列来进行计划。
值得注意的是,AlphaGo和AlphaProof都涉及到高度专业化的知识,比如围棋和数学。但我们仍不清楚如何将这种强大的规划能力与LLM的知识广度相结合。
‘CoT, chain of thought“是一个显著的进步。如果要求LLM提供相应的思维链,模型就能给出更好的复杂问题答案。
OpenAI即将推出的”o“系列模型进一步推动了这一理念。通过思维链,模型经过训练,能更好地进行”思考“。这需要更多的计算资源,意味着更多的能源消耗。
因此,我们看到了一种新的计算扩展(computational scaling)出现,不仅仅是更多的训练数据和更大的模型,还需在”思考’答案上花费更多时间。这将极大地提高AI在推理密集型任务上的表现,比如数学、计算机等领域的科学工作。
这一点从o1和[GPT-4](https://ai-kit.cn/sites/1023.html)o的对比中就能看出差异。比如[GPT-4o](https://ai-kit.cn/sites/1771.html)在AIME比赛中仅超过了13%的参赛者,而o1的得分超过了前83%,成为全国前500名。
若这个策略最终成功,需要考虑的风险包括AI的不可靠调整和控制。o1的评估结果显示它欺骗人类的能力增强,且其帮助制造生物武器的能力已到达OpenAI认为的最高可接受水平。
因此,解锁推理和成为\”智能体\“被认为是通往AGI的主要里程碑。于是科技巨头在经济诱因下相互竞争,从而使得安全问题成为斗争的一角。
o1可能只是初期步骤。虽然在许多推理和数学任务上表现出色,但在更复杂的规划任务上却遇到重重困难,似乎尚未实现长期规划的能力,这表明o1尚未成为AI公司追求的那种”自主智能体’,还有很多工作待完成。
随着编程和科学能力的提升,接下来可能的新模型将加速AI本身的研究进程。考虑到这一层面,实现人类水平的智能可能比预期更快。
总结来说,Bengio在专栏文章中主要预言了AI思考能力的重要性,但他并未直观回答思维的存在是否以语言为前提。这一问题的空白,被Yann LeCun填补。
今年内,LeCun多次发推和转发相关证据的文章,反复强调:语言绝非思考的必要条件。即使语言能力受损,人们依然可以进行思考。
即便语言能力因中风受损,我们仍能进行思考。语言是表达思想的一种手段,但思考、记忆和推理能力并不仅仅依赖于语言。
LeCun引用的两篇文章均出自MIT的Evelina Fedorenko之手,一篇为基于实验结果的博客,另一篇是发表在最新一期Nature杂志上的综述文章。
Evelina Fedorenko是MIT的脑与认知科学副教授同时担任McGovern脑研究所的研究员,她专注于探索人类心智和大脑与语言的互动。
例如研究对象Sue。Sue因中风导致脑部受损,并患有所谓的\”全面性失语症(global aphasia)\”,她无法说话甚至不能理解任何短语或句子。
类似的有很多病人。那么,关键问题是——在几乎完全丧失语言能力的情况下,他们的思维能力能保存到何种程度?实验显示许多认知功能在大脑损伤后仍然完好。
在测试中发现,患有全面性失语症的病人能够解决数学问题、推理他人意图,甚至于参与因果推论任务。有的人还继续下棋或从事艺术创作。
例如俄罗斯作曲家Shebalin,在中风导致严重失语后依然能创作音乐。
神经影像学证据显示,大脑中有一部分专门对语言有反应。这些语言涉及的区域与许多能力任务无关,包括计划、记忆、社交推断、同理心、道德判断和构建自我形象的能力。因此,我们的日常认知体验许多部分似乎与语言无直接关联。
需要注意的是,证据表明这些认知功能的习得过程在某种程度上依赖于语言,比如聋哑儿童接触手语不足会对其社交互动和推理他人意图的能力造成损害。
在数学方面的例子更加明显,例如某些部落语言中的数字词汇非常有限,这会影响他们在算术任务中的表现。
综上所述,语言和思维在静态大脑中有较大程度上的分离,但在认知功能的动态发展中,二者之间仍有复杂的相互作用。
对于AI来说,会不会同样遵循这样的模式,还是说可能会走出一条与碳基生物不同的道路?这个问题的答案,或许只能等到AGI时代到来时才能揭晓。