Jamba – AI21开源的首个基于Mamba架构的大模型

AI工具6个月前更新 niko
17 0 0

揭开Jamba的神秘面纱

AI21 Labs引领潮流,推出了业界首个Mamba架构的大型语言模型——Jamba。这一模型以其独特的混合结构,将传统Transformer架构的长处与Mamba的SSM(结构化状态空间模型)完美融合,旨在提供高质量的输出、强大的数据吞吐能力和较低的内存需求。Jamba不仅技术上突破传统,更以其256K的上下文窗口处理能力,显著提升了长文本处理的性能。

Jamba的开源精神,遵循Apache 2.0开源许可,为社区提供了进一步研究和优化的广阔天地。目前,该模型作为研究模型向公众开放,还没有商业用途的保障。但对于未来,AI21 Labs已经设定了宏伟的蓝图,计划在不久的将来推出一个经过微调、更为安全的版本。

了解Jamba的更多信息,您可以访问以下官方资源:

Jamba的核心优势

  • 混合架构:作为首个SSM-Transformer混合架构模型,Jamba在性能和效率上赢得了市场的尊重。
  • 大容量上下文窗口:提供256K的上下文窗口,允许Jamba处理更长的文本,适应于复杂的自然语言任务。
  • 高吞吐量:在处理长上下文任务时,Jamba的吞吐量是Mixtral 8x7B模型的三倍,大幅提升了数据处理的效率。
  • 单GPU大容量处理:即便是在单个GPU上,Jamba也能处理高达140K的上下文,展现了其灵活性。
  • 开放权重许可:Jamba的开放权重基于Apache 2.0许可,赋予了研究者和开发者更大的自由度。
  • NVIDIA API集成:Jamba将会作为NVIDIA NIM推理微服务的一部分,方便企业在NVIDIA AI Enterprise平台上部署。
  • 优化的MoE层:Jamba利用优化的MoE(混合专家)层,只激活必要参数,从而在保持参数总数的同时,优化了运行效率。

技术架构解析

Jamba的架构设计采取了模块化和分层的策略,实现了Mamba SSM与Transformer的无缝集成。每个Jamba模块都包含关注层或Mamba层,并以多层感知器(MLP)作为结尾,形成了八层中包含一个Transformer层的比例。

此外,Jamba通过MoE层的设计,增加了模型参数总数,同时在推理过程中减少了活动参数的数量,使得模型在不增加计算需求的情况下,能够获得更高的内存容量和模型性能。AI21 Labs针对80GB GPU上的模型质量和吞吐量进行了专门的优化,确保了在常见推理任务中,有足够的可用内存。

性能对抗战果

AI21 Labs的报告显示,Jamba在多个基准测试中表现出色,如HellaSwag、ArcChallenge、MLLU等,与当前同规模的最先进模型相比,Jamba不仅不相上下,甚至在某些方面还实现了超越。这一结果证明了Jamba在语言理解、科学推理、常识推理等广泛任务中的卓越性能。

Jamba的未来令人期待,其开放合作的姿态,不仅为研究界带来了新的活力,也为商用领域展示了巨大的潜力。随着未来版本的进一步优化和完善,我们可以期待Jamba在语言模型领域扮演更加关键的角色。

© 版权声明

相关文章

暂无评论

暂无评论...