谷歌推出Mixture-of-Recursions,性能超越Transformer

AI快讯9小时前发布 niko
4 0
AiPPT - 一键生成ppt

谷歌DeepMind联合KAIST AI、Mila团队推出全新底层架构Mixture-of-Recursions(MoR),有望超越Transformer,引发行业关注。

统一参数共享与自适应计算:Transformer虽带来优秀的少样本泛化和推理能力,但计算和内存需求庞大。MoR首次在单一框架中实现统一参数共享和自适应计算,用同一组参数处理不同任务,并动态分配计算资源。其采用递归Transformer,复用一组共享参数池,包含Cycle、Sequence、Middle变体三种参数共享策略,减少独特参数数量,提升分布式训练效率。同时,MoR运用动态路由机制,包括Expert-choice路由和Token-choice路由,为每个token分配不同递归深度,集中计算在复杂token上。此外,MoR借助KV缓存策略,如Recursion-wise缓存和Recursive KV共享,管理键值的存储与使用,提升内存效率。

性能超越Transformer:研究人员在不同参数规模的模型上进行对比实验,结果显示,在相同训练预算下,MoR使用更少参数,实现更低验证损失和更高平均少样本准确率。在训练固定token时,MoR减少训练FLOPs,缩短训练时间,降低峰值内存。IsoFLOP分析表明,MoR在多数情况下优于递归基线模型,且在360M及以上规模接近或超过Vanilla模型。推理吞吐量评估显示,360M规模的MoR模型优于vanilla,递归深度增加提升了吞吐量。

谷歌对底层架构的再思考 :谷歌一直致力于利用架构创新重构计算范式,此前推出的混合专家模型(MoE)、GShard、SwitchTransformer、gemini 1.5Pro等,都体现了这一理念。MoE已成为许多超大规模模型的优先选择,TokenFormer为千亿级模型的低成本迭代提供可能。对于谷歌此次推出的MoR,能否在未来彻底改变AI世界规则,超越Transformer,值得期待。

© 版权声明
Trea - 国内首个原生AI IDE