强化学习：从边缘走向AI研究中心

AI快讯1年前 (2025)发布 niko

强化学习重获关注2025年3月5日，图灵奖授予强化学习的两位理论奠基者安德鲁·巴托和理查德·萨顿。这一颁奖揭示了AI研究范式的转折，强化学习从一度沉沦重新走回AI研究中心。过去一年，OpenAI、DeepSeek等的成果让强化学习助力通往AGI的共识迅速凝聚。

AlphaGo：强化学习的辉煌时刻2016年，AlphaGo战胜李世石，让AI在公众认知中爆发。它以强化学习为理论基石，有策略和价值两个神经网络。后续的AlphaGoZero更是将强化学习做到极致，仅需基本规则，自我对弈数百万次就能发现获胜策略，且性能远超之前版本。这一成果让强化学习相关研究激增。

强化学习的“死胡同”争议辛顿等连接主义学者对强化学习路线并不认可。强化学习发展曲折，受制于算法、算力、数据瓶颈。虽借助神经网络发展为深度强化学习，但应用仍多在有限游戏环境，在开放性环境中稳定性差，泛化能力难突破，引发“强化学习是死胡同”的讨论。

强化学习：蛋糕上的樱桃大语言模型出现瓶颈，OpenAI率先用强化学习结合CoT技术实现深度推理。DeepSeek-R1-Zero则提出纯粹通过强化学习获得有效学习和泛化能力的模型，其奖励函数简单。强化学习与大语言模型互补，提升了AI智能程度，迎来合适的发展时机。

# AI快讯

文章版权归作者所有，未经允许请勿转载。