Llama Nemotron推理模型：参数253B，性能超越Llama 4

AI快讯1年前 (2025)发布 niko

LLaMA Nemotron推理模型上线 ：英伟达正式开源拥有253B参数的LlamaNemotron推理模型，其基于Llama-3.1-405B微调，在多项基准测试中表现出色，击败两款Llama 4模型，性能直逼DeepSeek R1。

模型优势显著 ：Llama Nemotron在复杂数学推理、科学推理、编码等测试中取得SOTA，推理吞吐量相比DeepSeek R1671B提升4倍。它能支持128K token的上下文长度，在单个8xH100芯片节点上进行推理，且在模型精度和效率间取得良好平衡，减少内存占用。

多种规模可选 ：LlamaNemotron系列包含Nano、Super和Ultra三种规模。Nano专为PC和边缘设备设计；Super针对数据中心GPU优化；Ultra专为多GPU数据中心打造最强智能体。各规模在不同基准测试中均展现领先性能。

关键技术揭秘 ：英伟达通过“测试时scaling”和“推理”技术提升模型性能，LlamaNemotron系列更用“系统提示词”控制推理开关，解决开发者无法自由切换推理模式的难题。

构建过程精细 ：Llama 3.3 Nemotron 49BInstruct经历蒸馏、监督微调、强化学习三个后训练阶段，打造出同类最佳推理模型，可在推理与非推理范式间切换，支持智能体AI工作流。

性能表现卓越 ：Llama Nemotron Super准确性高且吞吐量提升达5倍；Llama NemotronUltra推理性能超越顶级开放推理模型，吞吐量提升4倍，在多项测试中取得最高分。

助力多智能体系统 ：由Llama 3.3 Nemotron 49B Instruct驱动的多智能体协作系统在ArenaHard基准测试中获高分，其测试时计算scaling系统模仿人类解决复杂问题模式，提升解决复杂问题效率。

文章版权归作者所有，未经允许请勿转载。