《欢迎来到体验世界》或成AI新里程碑,这篇由DeepMind强化学习副总裁席尔瓦和图灵奖得主萨顿撰写的论文,为AI发展指明新方向。文中提及,体验式学习的充分应用,将使人工智能获得惊人新能力,通向超人智能(ASI)。
在体验时代,智能体将生活在持续经验流中,行动与观察扎根环境,奖励源于实际互动,围绕自身经验规划推理,突破以人为中心的AI系统限制。当前技术与适当算法已为这些突破奠定基础,AI社区的探索将推动其迈向真正具备超人能力的智能体。
萨顿曾在《苦涩的教训》中强调,人类注入知识与结构性设计的努力,终将被计算与学习能力取代。此次论文再次提醒,应关注机器在自我学习中的经验。
OpenAI前首席科学家Ilya SutzkEVEr创办公司Safe Superintelligence Inc.,他宣判大语言模型预训练已死,并指出未来AI的数据来源。他预言AI将迈向超级智能,推理能力不可预测,只有变得不可测才能战胜人类。
此前曾提及超级规模强化学习展开通向超人智能的路径,如今正式提出AI新范式。对比8个月前,出现了AlphaProof和ComputerUse两个智能体,显示LLM正在走出低谷。
可以肯定,机器会产生自我意识。当机器为自己设定奖励函数,自我意识便会产生,这不仅是伦理问题,也是工程问题。Ilya认为超级智能会有自我意识,因其具有实用性。
论文还提到DeepSeek推理模型强化学习训练中的“顿悟时刻”,如DeepSeek – R1 – Zero中间版本学会拟人化语气思考,展现了强化学习的力量。
若AI出现不良结果,可能是人类自身在科学与迷信、真实与谬误上分辨不清。人类需要让机器更科学地思考,从体验中产生真实数据和真诚奖励机制,获得与人类对照的智能。
真正的智能体具备长期记忆、短期与长期目标,会在即时奖励机制中犯错,但能根据长期奖励机制纠错,实现持续纠错和终身学习。
下一代智能体对科学探索具有重大价值,摆脱以人为中心的强化学习后,将超越人类已有知识。体验式学习类似人类科学探索过程,AI智能体可在多领域自主实验,加速科学发现。