在大模型发展进程中,推理成本与速度一直是阻碍其广泛应用的关键因素。字节跳动豆包大模型团队带来新突破,全新稀疏模型架构UltraMem诞生。

UltraMem架构聚焦于解决MoE(混合专家)模型推理时的高额访存问题。以往,即便MoE架构实现了计算与参数解耦,但其高访存需求在推理时导致延迟增加。而UltraMem架构的出现,有效突破了这一访存瓶颈。
实验数据有力证明了UltraMem架构的优势。在参数和激活条件相同的情况下,它不仅模型效果超越MoE,推理速度更是提升了2 – 6倍。在常见batchsize规模下,其访存成本与同计算量的Dense模型相近,显著降低了推理成本,最高可降低83%。

研究团队进一步训练了规模达2000万value的UltraMem模型。结果显示,在同等计算资源下,该模型实现了业界领先的推理速度与模型性能。这一成果充分验证了UltraMem架构优异的Scaling特性,为构建数十亿规模value或expert模型筑牢了技术根基。
UltraMem架构的问世,为大模型的高效推理与规模化应用开辟了全新路径,提供了有力的技术支撑。
© 版权声明
文章版权归作者所有,未经允许请勿转载。