英伟达Llama-Nemotron系列模型：开源领域推理新王者

英伟达LLaMA-Nemotron系列模型震撼开源，性能超越DeepSeek-R1

近日，英伟达正式发布Llama-Nemotron系列模型，且全部开源。该系列模型在推理吞吐量和内存效率上显著超越DeepSeek-R1，引发业界广泛关注。

独特技术铸就卓越性能

此系列模型的成功，得益于其独特的训练技术。利用合成数据监督微调与强化学习，全面提升了模型的推理能力。同时，从头构建的完善后训练流程，为模型的高性能提供了保障。

创新架构优化推理效率

借助神经架构搜索Puzzle框架，LN-Super和LN-Ultra优化了模型推理效率。通过「逐块局部蒸馏」构建替代Transformer模块库，每个模块独立且并行训练，在计算成本与模型准确性间实现平衡。此外，LN-Ultra引入FFN Fusion技术，减少模型序列深度，提升推理延迟效率，在准确性和效率上优于DeepSeek-R1和Llama-3.1-405B。

多阶段训练提升综合能力

Llama-Nemotron模型的构建分为五个阶段，包括利用NAS优化推理效率、知识蒸馏和继续预训练恢复性能、监督微调赋予多步骤推理能力、大规模强化学习实现超越以及简短的对齐训练符合人类偏好。在监督微调中，精心整理合成数据，使用NeMo-Aligner进行强化学习训练。

强化学习实现关键突破

为使学生模型超越教师模型，对LN-Ultra应用推理RL，采用分组相对策略优化算法。通过独特的奖励机制设计和数据预处理，使LN-Ultra在推理任务上表现出色。

偏好优化提升应用价值

完成科学推理训练后，对LN-Super和LN-Ultra进行简短的强化学习阶段，采用「在线RPO」等方法，提升指令跟随能力和通用帮助能力。

评估结果彰显强大实力

在推理和非推理类基准测试中，Llama-Nemotron系列模型均表现优异。LN-Nano在推理类基准测试中表现出色，LN-Super兼具推理和非推理优点，LN-Ultra在多个基准测试中达到开源模型先进水平。此外，在JudgeBench数据集上，新模型也展现出很强的泛化能力，LN-Ultra成为表现最好的开源模型。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

英伟达Llama-Nemotron系列模型：开源领域推理新王者

热门AI工具

相关文章