UltraMem架构助力豆包降本增效，与DeepSeek竞争激烈

在大模型发展进程中，降本增效成为关键诉求。字节跳动豆包大模型Foundation团队于12日推出全新稀疏模型架构UltraMem。在Transformer架构下，随着LLM规模增大，推理成本与速度问题凸显，即便MoE架构将计算和参数解耦，推理时的访存问题依旧突出。UltraMem架构的出现，在保证模型效果的同时，成功解决了这一难题。

实验表明，在相同参数和激活条件下，UltraMem不仅超越MoE，推理速度更是提升2 – 6倍，且在常见batchsize规模下，访存成本与同计算量的Dense模型相近。这无疑为大模型发展带来新的突破，也凸显了技术架构优化在降本增效方面的重要性。

当前，大模型领域竞争激烈。春节期间，DeepSeek凭借低成本和高运算效率迅速走红，成为行业黑马，其1月28日日活用户数超越豆包，日活数据突破4000万。面对强劲对手，豆包也在不断发力。两天前，其发布视频生成实验模型VideoWorld，该模型在业界首次实现无需依赖语言模型即可认知世界。

目前，豆包在AI基础层和应用层全面布局并持续升级，产品矩阵涵盖多个领域。2月12日，豆包概念股午后走高，抖音豆包指数2月以来累计涨幅超15%。然而，豆包也面临抉择。作为开源模型，DeepSeek影响众多公司模型选择策略，华为、百度等公司旗下不少AI应用已接入，字节跳动旗下飞书、火山引擎也有动作。如今，豆包团队正讨论豆包App是否接入DeepSeek，这一决策涉及多方面考量。

# AI快讯

文章版权归作者所有，未经允许请勿转载。