为了探索更高效的人工智能(AI)语言模型训练方法,纽约州立大学的心理学家Brenden Lake采取了一个非常规的实验:他将类似GoPro的相机绑在自己1岁9个月的女儿Luna头上。这项实验背后的想法是观察幼儿如何通过日常互动快速学习语言,并尝试利用类似的方式来训练AI模型。
传统训练方法的局限性
大规模语言模型(Large Language Models,简称LLM)背后的神经网络训练需要海量数据。专家们意识到,人类儿童的大脑像海绵一样吸收信息,形成连贯的世界观。然而,即便是表现出色的LLM,其学习效率也远不及儿童。除了数据需求巨大,LLM的语言掌握也需要数万亿个单词的训练。此外,儿童学习语言的准确度和创造力也远超现有模型。
儿童的启示
Lake教授的实验基于一个观察:儿童在语言习得方面表现出色。通过让Luna戴相机11个月,记录了从孩子视角的视频,研究团队希望能够利用这些数据训练出更高效的语言模型。
实验过程
Lake的团队将会收集来自美国各地25名儿童的视频和音频数据。通过对比人类儿童的学习模式和现有的AI学习模型,Lake教授的实验试图寻找更有效的训练方法。这种方法不仅仅是让AI模型将图像中的对象与相应的单词相匹配,而是要在稀疏数据的情况下实现这一点。这一研究方向是与当前大公司构建模型的策略完全相反的。
早期实验结果
2月时,Lake团队使用61小时的视频片段对一个神经网络进行了训练,实验结果显示该模型能够将体验中的单词和短语与视频帧联系起来。尽管模型的准确性还有待提高,但这一概念验证表明,模型能够泛化至新的视觉样本。
未来展望
Lake教授的研究表明,如果我们能够构建一个从有限的输入中学习的模型,这可能对训练LLM的数据需求产生深远的影响。这种方法可能会为理解人类学习和发展开辟新的领域,并有助于测试和理解发育障碍以及语言习得的情景。此外,如果我们能够构建一个真正开始习得语言的模型,它将为教育、医疗治疗等领域带来重要的启示。
结束语
人类儿童如何通过自己的眼睛和耳朵,扎实地掌握一门语言,这一直是许多领域专家探索的奥秘。通过将单词和视觉图像联系起来,Lake团队的研究为我们提供了一个全新的视角和研究途径。