谷歌推出Mixture-of-Recursions，性能超越Transformer

谷歌DeepMind联合KAIST AI、Mila团队推出全新底层架构Mixture-of-Recursions（MoR），有望超越Transformer，引发行业关注。

统一参数共享与自适应计算：Transformer虽带来优秀的少样本泛化和推理能力，但计算和内存需求庞大。MoR首次在单一框架中实现统一参数共享和自适应计算，用同一组参数处理不同任务，并动态分配计算资源。其采用递归Transformer，复用一组共享参数池，包含Cycle、Sequence、Middle变体三种参数共享策略，减少独特参数数量，提升分布式训练效率。同时，MoR运用动态路由机制，包括Expert-choice路由和Token-choice路由，为每个token分配不同递归深度，集中计算在复杂token上。此外，MoR借助KV缓存策略，如Recursion-wise缓存和Recursive KV共享，管理键值的存储与使用，提升内存效率。

性能超越Transformer：研究人员在不同参数规模的模型上进行对比实验，结果显示，在相同训练预算下，MoR使用更少参数，实现更低验证损失和更高平均少样本准确率。在训练固定token时，MoR减少训练FLOPs，缩短训练时间，降低峰值内存。IsoFLOP分析表明，MoR在多数情况下优于递归基线模型，且在360M及以上规模接近或超过Vanilla模型。推理吞吐量评估显示，360M规模的MoR模型优于vanilla，递归深度增加提升了吞吐量。

谷歌对底层架构的再思考 ：谷歌一直致力于利用架构创新重构计算范式，此前推出的混合专家模型（MoE）、GShard、SwitchTransformer、gemini 1.5Pro等，都体现了这一理念。MoE已成为许多超大规模模型的优先选择，TokenFormer为千亿级模型的低成本迭代提供可能。对于谷歌此次推出的MoR，能否在未来彻底改变AI世界规则，超越Transformer，值得期待。

# AI快讯

文章版权归作者所有，未经允许请勿转载。