字节清华联合开源DAPO算法:超越DeepSeek GRPO,实习生禹棋赢立功

AI快讯2个月前发布 niko
48 0
AiPPT - 一键生成ppt

一款超越DeepSeek GRPO的关键RL算法——DAPO,正式亮相。经实践验证,运用该算法的Qwen2.5-32B模型,仅通过RL训练,未引入蒸馏等其他技术,便在AIME2024基准测试中斩获50分,超越了相同设定下采用GRPO算法的DeepSeek-R1-Zero-Qwen。值得注意的是,DAPO算法在达成这一成果的过程中,训练步数减少了50%。

DAPO算法由字节与清华AIR联合实验室SIA Lab共同研发,目前已开源。其论文通讯作者及开源项目负责人为QiyingYu,即禹棋赢。这位01年出生的科研新星,本科毕业于哈工大,后直博进入清华AIR,如今是博士三年级在读生。去年年中,他以研究实习生的身份加入字节首次推出的「TopSeed人才计划」。

在字节大模型团队内部负责打造“能力显著提升的下一代语言模型”的攻坚小组中,禹棋赢是唯一的实习生,但他被委以重任,直接负责RL方向的研究。这背后有着怎样的故事?

时间回溯到去年5月,字节启动「TopSeed人才计划」,录取了多名应届和在读博士组成AI研究团队,禹棋赢便是其中一员。在为期2个月的适应期后,他锁定了大语言模型推理方向,并与导师王明轩决定打造一个具备强推理能力的模型。

在看到“采样更多,弱模型准确率也可以很高”的现象后,禹棋赢坚定地选择用RL来实现这一目标。不久后,OpenAI-o1的出现证明了他的方向正确性。随后,他通过对o1的测试,发现其证明过程的缺失,并判断o1是基于outcomesupervision训练出来的。由此,禹棋赢获得了一个与主流思路不同的技术信号——用outcome based reward去做RL。

基于此,禹棋赢依托字节内部小模型和代码库,利用少量GPU和学术界开源数据集,进行了大量迭代和测试。最初,他成功提升了小模型的数学能力,随后模型不断涌现出新能力,甚至展现出复杂的类o1推理能力。

去年10月,一个关键节点出现。当模型面对复杂数学公式时,展现出反思后换思维的行为,禹棋赢和导师认定这就是他们追求的能力雏形。此后,他凭借这一成果被邀请进入LLM攻坚小组,并负责RL方向研究。

在互联网上,我们还发现了禹棋赢更多的“战绩”。他大二开始编程,同年加入科研团队,大四在ECCV发表论文。本科毕业后直博清华,此前还曾在智源实习,产出了Emu、EVA-CLIP系列工作。

加入字节TopSeed计划后,禹棋赢与团队经历了诸多挑战与突破。虽然在1月底受到DeepSeek-R1的冲击,但他认为这证明了自己推进的路线正确。如今,禹棋赢又有了新目标——研究清楚RL的scaling规律。

禹棋赢的经历反映出当下大模型行业的新趋势。在这个领域,经验不再是唯一的衡量标准,解决前沿问题的能力才是关键。OpenAI、DeepSeek等团队都有众多新人崭露头角,他们凭借好奇心与执行力,成为推动行业发展的重要力量。

在AGI探索的道路上,年轻人的特质,如对技术直觉的信任、极高的热情与好奇心以及对试错成本的高耐受度,使其成为探索未知领域的重要力量。学界和工业界也都在积极培养和重用年轻人。

最后,还有一则消息。量子位独家获悉,今年字节将继续推进TopSeed项目,由原谷歌DeepMind副总裁、现字节跳动豆包大模型团队负责AI基础研究探索工作的吴永辉亲自带队。

© 版权声明
Trea - 国内首个原生AI IDE