强化学习重获关注2025年3月5日,图灵奖授予强化学习的两位理论奠基者安德鲁·巴托和理查德·萨顿。这一颁奖揭示了AI研究范式的转折,强化学习从一度沉沦重新走回AI研究中心。过去一年,OpenAI、DeepSeek等的成果让强化学习助力通往AGI的共识迅速凝聚。
AlphaGo:强化学习的辉煌时刻2016年,AlphaGo战胜李世石,让AI在公众认知中爆发。它以强化学习为理论基石,有策略和价值两个神经网络。后续的AlphaGoZero更是将强化学习做到极致,仅需基本规则,自我对弈数百万次就能发现获胜策略,且性能远超之前版本。这一成果让强化学习相关研究激增。
强化学习的“死胡同”争议辛顿等连接主义学者对强化学习路线并不认可。强化学习发展曲折,受制于算法、算力、数据瓶颈。虽借助神经网络发展为深度强化学习,但应用仍多在有限游戏环境,在开放性环境中稳定性差,泛化能力难突破,引发“强化学习是死胡同”的讨论。
强化学习:蛋糕上的樱桃大语言模型出现瓶颈,OpenAI率先用强化学习结合CoT技术实现深度推理。DeepSeek-R1-Zero则提出纯粹通过强化学习获得有效学习和泛化能力的模型,其奖励函数简单。强化学习与大语言模型互补,提升了AI智能程度,迎来合适的发展时机。
© 版权声明
文章版权归作者所有,未经允许请勿转载。