原生多模态Llama 4发布，多维度创新引领开源新风潮

原生多模态LLaMA 4震撼登场 ，这一开源模型的发布，在AI领域激起千层浪。首批推出的两款模型Scout和Maverick，凭借独特优势备受瞩目。

Llama 4采用了创新的 MoE架构 ，与传统稠密模型相比，在训练和推理时计算效率大幅提升。以Llama 4Maverick为例，4000亿总参数中仅170亿为活跃参数，通过交替使用稠密层和MoE层，运行时部分参数激活，降低成本与延迟，部署更轻松。

多语言支持能力卓越 。Llama4通过在200种语言上预训练，实现对开源微调的有力支持，超10亿token的语言达100多种，多语言token量比Llama 3多10倍。

视觉理解能力是Llama4的一大特色。作为原生多模态模型，它运用早期融合技术，无缝整合文本和视觉token。升级的视觉编码器基于MetaCLIP，训练时与冻结Llama模型分离，更好适配大语言模型。两款模型经大规模图像和视频帧静态图像训练，具备广泛视觉理解能力，Llama4 Scout在图像定位方面表现卓越。

Llama 4 Scout是通用模型的佼佼者，拥有170亿活跃参数、16个专家和1090亿总参数。其支持的上下文长度从Llama3的12.8万跃升至行业领先的1000万token，为多文档摘要等多种应用带来可能。它还采用iRoPE架构，交替注意力层结合温度缩放注意力，增强长度泛化能力。

而Llama 4Maverick作为核心模型，在图像精准理解和创意写作方面表现突出，适合通用助手、聊天类应用场景。训练过程中，Meta通过新后训练流程及策略，打造出智能与图像理解能力顶尖的通用聊天模型。

# AI快讯

文章版权归作者所有，未经允许请勿转载。