思维链之父Jason Wei跳槽Meta，强化学习揭示AI未来新方向

AI快讯1年前 (2025)发布 niko

当下，硅谷人才争夺战火愈发炽热。过去OpenAI从谷歌等公司吸纳人才，如今Meta不惜重金抢人，顶尖AI人才薪酬堪称天价，扎克伯格给出的起薪就达1亿美元。思维链之父、华人AI科学家JasonWei，此前从谷歌跳槽到OpenAI，如今又转投Meta。

Jason Wei在AI领域成果丰硕。据谷歌学术统计，他有13篇论文被引次数超1000，合作者不乏Jeff Dean、Quoc V.Le等知名AI研究员，还参与了OpenAI的GPT -4等多个项目。在离职消息被媒体曝光前，他发布的两篇博客或许能揭示其跳槽原因，而这些灵感均源于强化学习。

过去一年，Jason Wei潜心钻研强化学习。强化学习中有个关键概念「on -policy」（同策略），即与其模仿他人成功路径，不如自己行动从环境中获取反馈并学习。模仿学习在起步阶段必不可少，就像训练模型初期需依靠人类示范。但一旦模型能产生合理行为，就应依靠自身经验学习。比如用RL训练语言模型解数学题，比用人类写的思维链做监督微调效果更佳。

人生亦是如此。我们起初靠「模仿」成长，但长期模仿无法超越原版，每个人都有独特优势。JasonWei分享了自己两个小众习惯：大量阅读原始数据和做消融实验。他通过阅读数据给标注员反馈提升了数据质量，通过消融实验弄清楚了哪种RL更实用，还收获了独特经验。顺着兴趣做研究不仅更快乐，还能打造属于自己的研究方向。

强化学习的突破使「验证非对称性」成为AI领域重要思想。此概念指某些任务验证比求解简单。数独和填字游戏、开发网站、BRowseComp问题等都体现了验证非对称性。不过，也有任务验证耗时与求解相当，或验证比解决更费时。

通过前置研究可简化验证。深度学习史表明，凡是能被测量的都能被优化，由此诞生「验证者定律」：AI解决任务的训练难度与任务可验证性成正比，可解且易验证的任务终将被AI攻克。AI训练难易取决于任务是否满足客观真相、快速验证、可扩展验证、低噪声、连续奖励等条件。过去十年，主流AI基准测试因满足前四项条件而率先被攻克。

谷歌开发的AlphaEvolve是「猜想 -验证」范式的极致体现。以「求容纳11个单位六边形的最小外接六边形」为例，它完美契合验证者法则五项特性，虽看似「过拟合」，但科学创新追求这种极致优化。未来，在可验证任务中，AI将势不可挡。

# AI快讯

文章版权归作者所有，未经允许请勿转载。