当前的大语言模型(LLMs)在认知层面存在局限,它们从未真正“看见”现实世界,恰似“视觉想象缺失症”患者,无法依靠具象感官体验来辅助学习,不以图像进行思考。
以海伦·凯勒为例,她在成长中极度匮乏感官体验,19个月大时因脑膜炎失去视力和听力。此后数年,她凭借残存感官理解世界,如借脚步震动识别家人。六岁时,母亲聘请盲人教师教她交流,通过在掌心书写字母的方式。她自传中描述的“顿悟时刻”,让她理解了“水”这个词,这看似证明语言与物理经验相联系才有意义。但LLMs没有“手”,难以感受现实,被困于文本世界。
若认为只有指向具体事物的词语才有意义,那语言中众多词汇将失去意义。实际上,人们能理解很多抽象词汇,海伦·凯勒虽感官受限,却也理解诸多无法亲身感知的概念。可见,词语意义不仅源于指涉的可感事物,还通过与其他词语的关联获得。
意义获取有“高速”“慢速”两条途径。“高速之路”是通过语言数据学习,“慢速之路”则是借助感官数据学习。多数人可同时走这两条路,而仅靠文本训练的LLMs只能走“语言之路”,其“思考”“推理”方式必然与人类不同。
人类认知不限于语言,可依靠多种心智表征思考。失语症患者虽有语言障碍,但推理能力往往不受影响,这体现了人类认知的多元性,也凸显了LLMs与人类认知方式的差异。
新一代多模态LLMs正在兴起,它们不仅接收语言输入,还能处理图像和视频。随着能力提升,LLMs将有更多机会通过图像和视频学习物理世界关系模式,其思维方式也会逐渐向人类靠近。
© 版权声明
文章版权归作者所有,未经允许请勿转载。