字节清华联合开源DAPO算法：超越DeepSeek GRPO，实习生禹棋赢立功

一款超越DeepSeek GRPO的关键RL算法——DAPO，正式亮相。经实践验证，运用该算法的Qwen2.5-32B模型，仅通过RL训练，未引入蒸馏等其他技术，便在AIME2024基准测试中斩获50分，超越了相同设定下采用GRPO算法的DeepSeek-R1-Zero-Qwen。值得注意的是，DAPO算法在达成这一成果的过程中，训练步数减少了50%。

DAPO算法由字节与清华AIR联合实验室SIA Lab共同研发，目前已开源。其论文通讯作者及开源项目负责人为QiyingYu，即禹棋赢。这位01年出生的科研新星，本科毕业于哈工大，后直博进入清华AIR，如今是博士三年级在读生。去年年中，他以研究实习生的身份加入字节首次推出的「TopSeed人才计划」。

在字节大模型团队内部负责打造“能力显著提升的下一代语言模型”的攻坚小组中，禹棋赢是唯一的实习生，但他被委以重任，直接负责RL方向的研究。这背后有着怎样的故事？

时间回溯到去年5月，字节启动「TopSeed人才计划」，录取了多名应届和在读博士组成AI研究团队，禹棋赢便是其中一员。在为期2个月的适应期后，他锁定了大语言模型推理方向，并与导师王明轩决定打造一个具备强推理能力的模型。

在看到“采样更多，弱模型准确率也可以很高”的现象后，禹棋赢坚定地选择用RL来实现这一目标。不久后，OpenAI-o1的出现证明了他的方向正确性。随后，他通过对o1的测试，发现其证明过程的缺失，并判断o1是基于outcomesupervision训练出来的。由此，禹棋赢获得了一个与主流思路不同的技术信号——用outcome based reward去做RL。

基于此，禹棋赢依托字节内部小模型和代码库，利用少量GPU和学术界开源数据集，进行了大量迭代和测试。最初，他成功提升了小模型的数学能力，随后模型不断涌现出新能力，甚至展现出复杂的类o1推理能力。

去年10月，一个关键节点出现。当模型面对复杂数学公式时，展现出反思后换思维的行为，禹棋赢和导师认定这就是他们追求的能力雏形。此后，他凭借这一成果被邀请进入LLM攻坚小组，并负责RL方向研究。

在互联网上，我们还发现了禹棋赢更多的“战绩”。他大二开始编程，同年加入科研团队，大四在ECCV发表论文。本科毕业后直博清华，此前还曾在智源实习，产出了Emu、EVA-CLIP系列工作。

加入字节TopSeed计划后，禹棋赢与团队经历了诸多挑战与突破。虽然在1月底受到DeepSeek-R1的冲击，但他认为这证明了自己推进的路线正确。如今，禹棋赢又有了新目标——研究清楚RL的scaling规律。

禹棋赢的经历反映出当下大模型行业的新趋势。在这个领域，经验不再是唯一的衡量标准，解决前沿问题的能力才是关键。OpenAI、DeepSeek等团队都有众多新人崭露头角，他们凭借好奇心与执行力，成为推动行业发展的重要力量。

在AGI探索的道路上，年轻人的特质，如对技术直觉的信任、极高的热情与好奇心以及对试错成本的高耐受度，使其成为探索未知领域的重要力量。学界和工业界也都在积极培养和重用年轻人。

最后，还有一则消息。量子位独家获悉，今年字节将继续推进TopSeed项目，由原谷歌DeepMind副总裁、现字节跳动豆包大模型团队负责AI基础研究探索工作的吴永辉亲自带队。

# AI快讯

文章版权归作者所有，未经允许请勿转载。