在大模型发展进程中,降本增效成为关键诉求。字节跳动豆包大模型Foundation团队于12日推出全新稀疏模型架构UltraMem。在Transformer架构下,随着LLM规模增大,推理成本与速度问题凸显,即便MoE架构将计算和参数解耦,推理时的访存问题依旧突出。UltraMem架构的出现,在保证模型效果的同时,成功解决了这一难题。
实验表明,在相同参数和激活条件下,UltraMem不仅超越MoE,推理速度更是提升2 – 6倍,且在常见batchsize规模下,访存成本与同计算量的Dense模型相近。这无疑为大模型发展带来新的突破,也凸显了技术架构优化在降本增效方面的重要性。
当前,大模型领域竞争激烈。春节期间,DeepSeek凭借低成本和高运算效率迅速走红,成为行业黑马,其1月28日日活用户数超越豆包,日活数据突破4000万。面对强劲对手,豆包也在不断发力。两天前,其发布视频生成实验模型VideoWorld,该模型在业界首次实现无需依赖语言模型即可认知世界。
目前,豆包在AI基础层和应用层全面布局并持续升级,产品矩阵涵盖多个领域。2月12日,豆包概念股午后走高,抖音豆包指数2月以来累计涨幅超15%。然而,豆包也面临抉择。作为开源模型,DeepSeek影响众多公司模型选择策略,华为、百度等公司旗下不少AI应用已接入,字节跳动旗下飞书、火山引擎也有动作。如今,豆包团队正讨论豆包App是否接入DeepSeek,这一决策涉及多方面考量。
© 版权声明
文章版权归作者所有,未经允许请勿转载。