DyT新技术:无需归一化层的Transformer实现高效训练与推理

AI快讯2个月前发布 niko
44 0
AiPPT - 一键生成ppt

深度学习新突破:无需归一化层的Transformer 在深度学习范畴,归一化层向来被视作现代神经网络的关键部分。近期,MetaFAIR研究科学家刘壮牵头的“没有归一化层的Transformer”研究成果备受瞩目。该研究不仅推出名为动态tanh(DyT)的创新技术,还证实了即便不采用传统归一化层,Transformer架构依旧能够达成高效的训练与推理。

归一化层的作用与新挑战归一化层,特别是层归一化(LN),在过去十年对优化深度学习模型贡献巨大。LN层通过对输入激活进行缩放与压缩,有效加快了模型的收敛速度。不过,研究者发现,LN层虽广泛应用,但并非唯一选择。基于对LN层行为的观察,他们提出全新替代方法DyT。这种元素级运算不仅能模拟LN层的缩放和压缩效果,还省去了复杂的激活数据计算。

DyT的实验成效显著实验中,研究团队用DyT替换多个Transformer架构里的传统归一化层。结果表明,采用DyT的模型不仅能稳定训练,还可获得更高的最终性能。更值得一提的是,新方法通常无需对原始架构进行超参数调整,大大降低了模型训练的复杂度。

DyT有效性的实证依据研究者深入分析三个不同Transformer模型的前向传播过程,发现早期LN层呈现线性关系,而更深层次的LN层,其输入和输出关系与tanh函数类似,呈S型曲线。这一意外发现为DyT的有效性提供了有力实证支持。

DyT的未来展望刘壮称,此项工作助其深入理解归一化层的作用,期待DyT能为降低模型训练和推理成本带来新契机。未来,DyT有望成为效率导向网络设计的重要候选方案,推动深度学习迈向新高度。

© 版权声明
Trea - 国内首个原生AI IDE