最新开源AI2 Tulu 3系列模型发布,后训练技术迈上新台阶

AI快讯2周前发布 niko
20 0

【导读】开源领域迎来了新的里程碑,AI2机构近期发布了Tulu 3系列模型,这一整套顶尖技术的开源语言模型在性能上不输于闭源解决方案如GPT-4o-mini。Tulu 3系列模型包括了数据、代码、训练方法和评估框架,致力于推动开源模型后训练技术的提升。

仅仅经过’预训练’的模型是无法直接投入实际应用的,因为它们有输出有害或不安全内容的风险,并且往往不能很好地遵循人类指令。因此,模型往往还需要’后训练’,这个步骤包括’指令微调’和’从人类反馈学习’,确保模型能够适应多种不同的实际应用场景。

传统的后训练做法沿用了InstructGPT等模型的指导方案,如指令调整和偏好微调。但是后训练过程仍然充满了不确定性,比如在提升模型的编码能力的同时可能会损害其诗歌创作或指令遵循的能力,正确的“数据组合”和“超参数”的选择依然是一大挑战,这对模型获取新知识的同时保持通用性至关重要。

为了攻克这一难题,许多大公司都在采取更复杂的后训练手段,比如多轮训练、人工数据与合成数据的结合、多种训练算法和目标等,来实现专业能力和通用性能的双重优化。但这些方法多是闭源的,而开源模型的性能往往无法与此匹敌,根据LMSYS的ChatBotArena排行榜,在前50名模型没有一个发布了其后训练数据。

最近,AI2机构发布了全新的Tulu 3系列完全开源的先进后训练模型,还包括所有相关的数据、数据混合、配方、代码、基础设施和评估框架,这项工作推进了后训练研究的边界,并缩小了开源模型与闭源模型在微调配方方面的性能差距。

TÜLU 3系列模型解读

TÜLU 3-70B:链接
TÜLU 3-8B:链接
TÜLU 3 数据:链接
TÜLU 3 代码:链接
TÜLU 3 评估:链接
Demo:链接

Tulu 3模型的训练算法采用了有监督式微调(SFT)、直接偏好优化(DPO)以及可验证奖励强化学习(RLVR),并基于Llama 3.1的基础模型构造而成,性能超越了Llama 3.1-instruct、Qwen 2.5、Mistral,甚至超越了GPT-4o-mini和Claude 3.5-Haiku这些闭源模型。

TÜLU 3训练过程详解

  • 第一阶段:数据构造
    研究人员着眼于模型的核心通用技能训练,如知识回忆、推理、数学、编程、指令遵循、普通聊天和安全性,并基于这些通用技能的需求来收集人工和合成数据。

  • 第二阶段:监督微调(SFT)
    研究人员针对具体的提示和完成内容进行监督微调。确定基准并有针对性地收集高质量的公开数据和合成数据,以提升模型在特定技能的表现。通过实验确定了最终SFT数据和训练超参数,以加强核心技能的同时,不显著影响其他技能。实验表明了多样化真实世界数据和安全独立的数据对性能的影响,以及针对特定技能数据的重要性。

  • 第三阶段:偏好调整
    研究人员使用直接偏好优化(DPO)对基于策略的合成偏好数据进行微调,并通过彻底的实验确定最佳的数据混合。研究了偏好微调方法和多种训练算法在提升综合评估套件性能方面的效果。进一步改进和扩展了UltraFeedback流程,创造出策略内偏好数据。

  • 第四阶段:可验证奖励的强化学习
    引入了可验证奖励强化学习(RLVR)新型方法,专注于训练语言模型完成有可验证结果的任务,如数学问题解决和指令遵循。RLVR相较于RLHF目标,使用验证函数替代奖励模型,在基准测试上显示出针对性改进。

TÜLU 3评估体系

为了为后训练方法建立清晰的性能目标和评估工具,研究人员不仅发布了统一的标准化评估套件和工具包来指导开发和评估,还对训练数据进行了净化以适应评估基准。Open Language Model Evaluation System(OLMES)提供了标准化和可复现的评估支持。研究人员还强调了评估过程的可复现、评估模型的泛化能力以及评估设置对不同模型的公平性。

总结

AI2机构此次发布的Tulu 3系列模型,不仅推动了开源模型后训练技术的前进步伐,也为业界提供了一种全新的视角,如何在保持模型性能的同时,通过后训练技术增强模型的安全性和执行能力。这些开源的资源和工具,无疑将对人工智能领域的研究和实践产生积极影响。

© 版权声明

相关文章

暂无评论

暂无评论...