艾伦AI所推Tülu 3 405B开源模型性能超DeepSeek v3且训练方法独特

在模型竞争激烈的当下，美国艾伦人工智能研究所（Ai2）带来新惊喜，推出基于强化学习的新一代开源模型Tülu 3405B。此模型表现出色，在不少关键基准测试里，性能与Deepseekv3、[GPT-4](https://ai-kit.cn/sites/1023.html)o相当甚至更优，还超越了许多先前发布的同等参数规模的后训练开源模型，如Llama 3.1 405B Instruct和Nous Hermes3 405B。

回顾历程，2024年11月，艾伦人工智能研究所先推出Tülu 3 8B和70B，性能超越同等参数的Llama 3.1Instruct版本，并在论文中公开训练细节，涵盖训练数据、代码、测试基准等。而在今年1月30日，更为强大的Tülu 3 405B震撼亮相。

不过，Tülu 3405B并非完美无缺。在官网体验版测试时，对于经典的数“Strawberry中有几个r”的问题表现不佳，但在后续需要推理的问题上，能给出正确回答思路。并且在生成与蛇相关格言时，大多未能理解传统文化中“蛇”的寓意。对于想体验本地大模型的用户，Tülu3 8B和70B已支持ollama下载，405B预计也将尽快上线该平台。

Tülu3的独特之处，还体现在其“炼丹术”——全新的后训练框架上。早期语言模型后训练工作多遵循InstructGPT等开创的标准方法，而多数成功模型对训练数据等披露有限。Ai2却不同，不仅完整公开Tülu3的训练数据、方法和成果，其构建流程也别具一格，包含数据、训练和评估三部分。

Tülu 3项目从确定通用语言模型的关键期望能力起步，像知识、推理、数学等能力。模型训练在预训练语言模型（Llama 3Base）基础上，采用四阶段后训练配方。第一阶段是精心策划和合成式提示；第二阶段在混合数据集上进行监督微调，同时用攻击性提示词数据保障模型安全；第三阶段结合离线和在线策略偏好数据进行偏好微调；第四阶段采用新的基于强化学习的方法——可验证奖励强化学习（RLVR）。

这种新训练方法针对可验证结果的任务，通过明确问题完成情况更新策略函数。有趣的是，在更大规模（如405B）上，可验证奖励强化学习框架对数学性能提升更显著。训练Tülu3405B时使用32个节点（256个GPU）并行运行，推理时可用vLLM部署模型。受计算成本限制，超参数调整受限，训练遵循“参数更大的模型采用较低学习率”原则。

总体而言，Tülu3采用全新后训练框架，涵盖完全开源的数据、评估、训练代码及开发配方，性能超越同尺度模型。它标志着开放后训练研究的新里程碑，为后续研究提供借鉴，其训练方法值得开发者深入探索。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

艾伦AI所推Tülu 3 405B开源模型 性能超DeepSeek v3且训练方法独特

艾伦AI所推Tülu 3 405B开源模型性能超DeepSeek v3且训练方法独特