思维链之父Jason Wei跳槽Meta,强化学习揭示AI未来新方向

AI快讯8小时前发布 niko
3 0
AiPPT - 一键生成ppt

当下,硅谷人才争夺战火愈发炽热。过去OpenAI从谷歌等公司吸纳人才,如今Meta不惜重金抢人,顶尖AI人才薪酬堪称天价,扎克伯格给出的起薪就达1亿美元。思维链之父、华人AI科学家JasonWei,此前从谷歌跳槽到OpenAI,如今又转投Meta。

Jason Wei在AI领域成果丰硕。据谷歌学术统计,他有13篇论文被引次数超1000,合作者不乏Jeff Dean、Quoc V.Le等知名AI研究员,还参与了OpenAI的GPT -4等多个项目。在离职消息被媒体曝光前,他发布的两篇博客或许能揭示其跳槽原因,而这些灵感均源于强化学习。

过去一年,Jason Wei潜心钻研强化学习。强化学习中有个关键概念「on -policy」(同策略),即与其模仿他人成功路径,不如自己行动从环境中获取反馈并学习。模仿学习在起步阶段必不可少,就像训练模型初期需依靠人类示范。但一旦模型能产生合理行为,就应依靠自身经验学习。比如用RL训练语言模型解数学题,比用人类写的思维链做监督微调效果更佳。

人生亦是如此。我们起初靠「模仿」成长,但长期模仿无法超越原版,每个人都有独特优势。JasonWei分享了自己两个小众习惯:大量阅读原始数据和做消融实验。他通过阅读数据给标注员反馈提升了数据质量,通过消融实验弄清楚了哪种RL更实用,还收获了独特经验。顺着兴趣做研究不仅更快乐,还能打造属于自己的研究方向。

强化学习的突破使「验证非对称性」成为AI领域重要思想。此概念指某些任务验证比求解简单。数独和填字游戏、开发网站、BRowseComp问题等都体现了验证非对称性。不过,也有任务验证耗时与求解相当,或验证比解决更费时。

通过前置研究可简化验证。深度学习史表明,凡是能被测量的都能被优化,由此诞生「验证者定律」:AI解决任务的训练难度与任务可验证性成正比,可解且易验证的任务终将被AI攻克。AI训练难易取决于任务是否满足客观真相、快速验证、可扩展验证、低噪声、连续奖励等条件。过去十年,主流AI基准测试因满足前四项条件而率先被攻克。

谷歌开发的AlphaEvolve是「猜想 -验证」范式的极致体现。以「求容纳11个单位六边形的最小外接六边形」为例,它完美契合验证者法则五项特性,虽看似「过拟合」,但科学创新追求这种极致优化。未来,在可验证任务中,AI将势不可挡。

© 版权声明
Trea - 国内首个原生AI IDE