深入探讨:注意力机制在AI领域的诞生
核心AI组件的来源
了解过大模型关键部分注意力机制的背后故事吗?并非起始于2017年的开创性文章《Attention is all you need》,而是可以追溯到2014年。近期,这项研究的更多内幕被公开了。Karpathy回顾了与这项技术的真正开创者之间的邮件往来,重燃了许多讨论,这一过程经历了整整十年的变迁。
原始灵感的闪现
关键贡献者Dzmitry Bahdanau,当时还是个实习生,在Bengio实验室仅有五周的实习时间内,他灵机一动提出了一个创新性的简化方案,当时被称为对角注意力,类似的原理也存在于如今被广泛使用的Pytorch框架中,称这种机制为’Bahdanau Attention’。Karpathy之所以近日重提这段历史,是因社区流传了一些误解 —— 误以为Transformer作者受科幻电影《降临》启发。而实际上,真正启发Transformer的设计是来自于人类翻译工作时,眼睛在文档间移动、寻找内容的过程。
技术背后的思想和意图
2014年的注意力机制研究之所以引人入胜,与当年Alex Graves的Neural Turing Machines和Jason Weston的Memory Networks等都有类同之处,但这三项研究虽然结果相似,其出发点和动机各自独立,说明技术发展到临界点时,不同研究者经常会独立提出类似的创新点子。’RNNSearch’改名为更直观的’注意力’,受到了Yoshua Bengio的建议影响,这个更加精炼的名字,提升了技术的传播力和影响力。
引发思考的故事
这个故事不仅澄清了一段技术误解,同时也提供了很多对于当前研究的启发。有网友感叹,故事中的邮件文献应当被放置在计算机科学博物馆中。正如这些故事显示,改变世界的发现往往源于实验过程,而且许多情况下,人们并不能预知这一切将如何发展。以下是Bahdanau向Karpathy发送的邮件内容的翻译,邮件写于两年前。
邮件全文翻译:内蒙古真的诞生了
你好,Andrej,
我很高兴能与您分享十年前发生的故事!在德国的雅各布大学完成了硕士一年级学业后,我有幸进入Yoshua实验室实习。虽然我对于将一系列单词压缩进一个向量的想法感到怀疑,但我真心渴望得到博士学位的机会,于是积极投身我擅长的工作 —— 编写代码、修复Bug等。片刻后,Yoshua让我参与到了机器翻译项目中,与Kyunghyun Cho及团队合作。
不断深入了解,我逐渐开始思考如何避免编码器和解码器RNN之间的信息流动瓶颈问题。我初次想法是创建一个带有双光标的模型,光标之一跟随BiRNN编码在源序列区域移动,而另一个则追踪目标序列。本打算按照动态规划边际化光标轨迹,却被Kyunghyun Cho视作仿RNN Transducer模型,之后我也阅读了Graves手写的识别论文,这适用于机器翻译的愿望显然相当遥远。
bearing我意识到,实习期限只剩五周,因此尝试了简单的方法:两个光标同步移动,实现了硬编码的对角注意力。这略见了一些效果,但我总觉得做得不够优雅。直到我在一个特别的日子有了新的想法 —— 让解码器RNN学会在源序列中搜索光标的位置,这个方法就来自于我中学英语学习时中的翻译训练,翻译时你的目光需要在源和目标序列之间来回扫视。我将软搜索表示化为softmax,并将BiRNN状态加以权重平均,对这一理念第一次尝试就十分成功,给人惊喜。
我将这个架构称为RNNSearch,并在单个GPU上运行。由于谷歌Ilya(Ilya Sutskever)的团队在某些方面以8个GPU超过了我们,我们只得尽快在ArXiV上发表成果。稍后发现,’RNNSearch’这个名字并不理想,’注意力’这个名字是Yoshua在评论中添加上去的。直观地说,它使我们的解码器具备了一种注意力机制,它可以决定源语句哪些部分需要被关注 —— 这样一来,编码器将源语句信息编码到固定长度向量的重任得到了分担,信息可以分散在整个注解序列中,并且解码器可以有选择性地检索信息。半个月后,我们注意到了Alex Graves的论文。果不其然,思路完全一样,动机虽则完全不同。在发明新算法方面,我们有清晰的驱动目标,而他那边是否有其他领域连接的雄心?Jason Weston的Memory Networks论文也提出了类似的机制。实际上,我那时没有预见到这种机制的可能性 —— 即作为表示学习的核心算法被更多层面地使用。但我看到Transformer论文时,我就知道:RNN将要被这股新浪潮淘汰了。
回答你的最初问题:在Yoshua的实验室里,’可微且数据依赖的加权平均’(相似的表述可以是’逐渐自然的背景’)并非受神经机器或Memory Networks的影响,而是Yoshua持续激励实验室寻求雄心勃勃目标的结果,Kyunghyun Cho管理初级博士和实习生的大型机器翻译项目的出色执行能力,同时也是我个人在编程比赛中多年锤炼出创造力和编程技能的成果。即使我们个人不像今天这样涉足深度学习领域,我们的想法只是不到一年的差异而已。注意力机制的出现显得更像是深度学习实现灵活的空间链接方式 —— 一个几乎显而易见的点子,直到GPU足够快,让人对深度学习研究产生兴趣和认真对待。在意识到这一点之后,我的人工智能抱负便从启动类似于机器翻译这样的惊人应用项目开始,因为良好的研发工作实际上带来更大更基础技术的进步贡献,比起其他我们通常认为“真正的”人工智能研究的概念要强得多。
期待了解更多关于你的人工智能教育项目的信息(我从Harm de Vries那里有所听闻)。干杯,Dima。
额外注解:Karpathy感叹,有一点出乎意料的是这篇实际的注意力起源论文并没有获得太多的关注。自从‘Attention is all you need’文章流行开来,公众开始意识到起一个好名字对技术传播的巨大影响。此后的论文标题开始有所演变,不仅模仿了流行趋势,甚至出现了Taylor Swift(提示:这是一个把模型的权重转为泰勒级数参数,保护发布模型知识产权并防止滥用的技术)。论文包括
论文一览:
– Neural Machine Translation by Jointly Learning to Align and Translate: https://arxiv.org/abs/1409.0473
– Attention is All You Need: https://arxiv.org/abs/1706.03762
– Neural Turing Machines: https://arxiv.org/abs/1410.5401
– Generating Sequences With Recurrent Neural Networks: https://arxiv.org/abs/1308.0850
– Memory Networks: https://arxiv.org/abs/1410.3916
– Sequence to Sequence Learning with Neural Networks: https://arxiv.org/abs/1409.3215
– Taylor Unswift:https://arxiv.org/abs/2410.05331