Jamba – AI21开源的首个基于Mamba架构的大模型

AI工具1年前 (2024)更新 niko

53 0 0

AiPPT - 一键生成ppt

揭开Jamba的神秘面纱

AI21 Labs引领潮流，推出了业界首个Mamba架构的大型语言模型——Jamba。这一模型以其独特的混合结构，将传统Transformer架构的长处与Mamba的SSM（结构化状态空间模型）完美融合，旨在提供高质量的输出、强大的数据吞吐能力和较低的内存需求。Jamba不仅技术上突破传统，更以其256K的上下文窗口处理能力，显著提升了长文本处理的性能。

Jamba的开源精神，遵循Apache 2.0开源许可，为社区提供了进一步研究和优化的广阔天地。目前，该模型作为研究模型向公众开放，还没有商业用途的保障。但对于未来，AI21 Labs已经设定了宏伟的蓝图，计划在不久的将来推出一个经过微调、更为安全的版本。

了解Jamba的更多信息，您可以访问以下官方资源：

官方项目主页：AI21 Labs Jamba
官方博客介绍：Jamba发布公告
Hugging Face地址：ai21labs/Jamba-v0.1

Jamba的核心优势

混合架构：作为首个SSM-Transformer混合架构模型，Jamba在性能和效率上赢得了市场的尊重。
大容量上下文窗口：提供256K的上下文窗口，允许Jamba处理更长的文本，适应于复杂的自然语言任务。
高吞吐量：在处理长上下文任务时，Jamba的吞吐量是Mixtral 8x7B模型的三倍，大幅提升了数据处理的效率。
单GPU大容量处理：即便是在单个GPU上，Jamba也能处理高达140K的上下文，展现了其灵活性。
开放权重许可：Jamba的开放权重基于Apache 2.0许可，赋予了研究者和开发者更大的自由度。
NVIDIA API集成：Jamba将会作为NVIDIA NIM推理微服务的一部分，方便企业在NVIDIA AI Enterprise平台上部署。
优化的MoE层：Jamba利用优化的MoE（混合专家）层，只激活必要参数，从而在保持参数总数的同时，优化了运行效率。

技术架构解析

Jamba的架构设计采取了模块化和分层的策略，实现了Mamba SSM与Transformer的无缝集成。每个Jamba模块都包含关注层或Mamba层，并以多层感知器（MLP）作为结尾，形成了八层中包含一个Transformer层的比例。

此外，Jamba通过MoE层的设计，增加了模型参数总数，同时在推理过程中减少了活动参数的数量，使得模型在不增加计算需求的情况下，能够获得更高的内存容量和模型性能。AI21 Labs针对80GB GPU上的模型质量和吞吐量进行了专门的优化，确保了在常见推理任务中，有足够的可用内存。

性能对抗战果

AI21 Labs的报告显示，Jamba在多个基准测试中表现出色，如HellaSwag、ArcChallenge、MLLU等，与当前同规模的最先进模型相比，Jamba不仅不相上下，甚至在某些方面还实现了超越。这一结果证明了Jamba在语言理解、科学推理、常识推理等广泛任务中的卓越性能。

Jamba的未来令人期待，其开放合作的姿态，不仅为研究界带来了新的活力，也为商用领域展示了巨大的潜力。随着未来版本的进一步优化和完善，我们可以期待Jamba在语言模型领域扮演更加关键的角色。

# AI工具 # AI项目和框架

© 版权声明

文章版权归作者所有，未经允许请勿转载。

Trea - 国内首个原生AI IDE

AiPPT - 一键生成ppt

AI工具箱，全方位AI资源聚合平台，精选全球3000+优质免费AI应用，涵盖AI写作工具、AI编程工具、AI绘画工具、AI设计工具、AI办公工具、AI营销工具、AI视频工具、AI音频工具等多个领域领域的AI工具软件。致力于让AI技术触手可及，助力用户高效工作，加速技术创新与产业应用落地，推动智能生活与工作方式革新。

AI写作工具 AI视频工具 AI绘画工具 AI编程工具 AI办公工具 AI设计工具 AI音频工具 AI论文工具广告合作关于我们

Copyright © 2025 AI工具箱鄂ICP备2024044990号-2