DyT新技术：无需归一化层的Transformer实现高效训练与推理

深度学习新突破：无需归一化层的Transformer 在深度学习范畴，归一化层向来被视作现代神经网络的关键部分。近期，MetaFAIR研究科学家刘壮牵头的“没有归一化层的Transformer”研究成果备受瞩目。该研究不仅推出名为动态tanh（DyT）的创新技术，还证实了即便不采用传统归一化层，Transformer架构依旧能够达成高效的训练与推理。

归一化层的作用与新挑战归一化层，特别是层归一化（LN），在过去十年对优化深度学习模型贡献巨大。LN层通过对输入激活进行缩放与压缩，有效加快了模型的收敛速度。不过，研究者发现，LN层虽广泛应用，但并非唯一选择。基于对LN层行为的观察，他们提出全新替代方法DyT。这种元素级运算不仅能模拟LN层的缩放和压缩效果，还省去了复杂的激活数据计算。

DyT的实验成效显著实验中，研究团队用DyT替换多个Transformer架构里的传统归一化层。结果表明，采用DyT的模型不仅能稳定训练，还可获得更高的最终性能。更值得一提的是，新方法通常无需对原始架构进行超参数调整，大大降低了模型训练的复杂度。

DyT有效性的实证依据研究者深入分析三个不同Transformer模型的前向传播过程，发现早期LN层呈现线性关系，而更深层次的LN层，其输入和输出关系与tanh函数类似，呈S型曲线。这一意外发现为DyT的有效性提供了有力实证支持。

DyT的未来展望刘壮称，此项工作助其深入理解归一化层的作用，期待DyT能为降低模型训练和推理成本带来新契机。未来，DyT有望成为效率导向网络设计的重要候选方案，推动深度学习迈向新高度。

# AI快讯

文章版权归作者所有，未经允许请勿转载。