英伟达LLaMA-Nemotron系列模型震撼开源,性能超越DeepSeek-R1
近日,英伟达正式发布Llama-Nemotron系列模型,且全部开源。该系列模型在推理吞吐量和内存效率上显著超越DeepSeek-R1,引发业界广泛关注。
独特技术铸就卓越性能
此系列模型的成功,得益于其独特的训练技术。利用合成数据监督微调与强化学习,全面提升了模型的推理能力。同时,从头构建的完善后训练流程,为模型的高性能提供了保障。
创新架构优化推理效率
借助神经架构搜索Puzzle框架,LN-Super和LN-Ultra优化了模型推理效率。通过「逐块局部蒸馏」构建替代Transformer模块库,每个模块独立且并行训练,在计算成本与模型准确性间实现平衡。此外,LN-Ultra引入FFN Fusion技术,减少模型序列深度,提升推理延迟效率,在准确性和效率上优于DeepSeek-R1和Llama-3.1-405B。
多阶段训练提升综合能力
Llama-Nemotron模型的构建分为五个阶段,包括利用NAS优化推理效率、知识蒸馏和继续预训练恢复性能、监督微调赋予多步骤推理能力、大规模强化学习实现超越以及简短的对齐训练符合人类偏好。在监督微调中,精心整理合成数据,使用NeMo-Aligner进行强化学习训练。
强化学习实现关键突破
为使学生模型超越教师模型,对LN-Ultra应用推理RL,采用分组相对策略优化算法。通过独特的奖励机制设计和数据预处理,使LN-Ultra在推理任务上表现出色。
偏好优化提升应用价值
完成科学推理训练后,对LN-Super和LN-Ultra进行简短的强化学习阶段,采用「在线RPO」等方法,提升指令跟随能力和通用帮助能力。
评估结果彰显强大实力
在推理和非推理类基准测试中,Llama-Nemotron系列模型均表现优异。LN-Nano在推理类基准测试中表现出色,LN-Super兼具推理和非推理优点,LN-Ultra在多个基准测试中达到开源模型先进水平。此外,在JudgeBench数据集上,新模型也展现出很强的泛化能力,LN-Ultra成为表现最好的开源模型。