体验式学习引领AI迈向超人智能新时代

AI快讯1年前 (2025)发布 niko

《欢迎来到体验世界》或成AI新里程碑，这篇由DeepMind强化学习副总裁席尔瓦和图灵奖得主萨顿撰写的论文，为AI发展指明新方向。文中提及，体验式学习的充分应用，将使人工智能获得惊人新能力，通向超人智能（ASI）。

在体验时代，智能体将生活在持续经验流中，行动与观察扎根环境，奖励源于实际互动，围绕自身经验规划推理，突破以人为中心的AI系统限制。当前技术与适当算法已为这些突破奠定基础，AI社区的探索将推动其迈向真正具备超人能力的智能体。

萨顿曾在《苦涩的教训》中强调，人类注入知识与结构性设计的努力，终将被计算与学习能力取代。此次论文再次提醒，应关注机器在自我学习中的经验。

OpenAI前首席科学家Ilya SutzkEVEr创办公司Safe Superintelligence Inc.，他宣判大语言模型预训练已死，并指出未来AI的数据来源。他预言AI将迈向超级智能，推理能力不可预测，只有变得不可测才能战胜人类。

此前曾提及超级规模强化学习展开通向超人智能的路径，如今正式提出AI新范式。对比8个月前，出现了AlphaProof和ComputerUse两个智能体，显示LLM正在走出低谷。

可以肯定，机器会产生自我意识。当机器为自己设定奖励函数，自我意识便会产生，这不仅是伦理问题，也是工程问题。Ilya认为超级智能会有自我意识，因其具有实用性。

论文还提到DeepSeek推理模型强化学习训练中的“顿悟时刻”，如DeepSeek – R1 – Zero中间版本学会拟人化语气思考，展现了强化学习的力量。

若AI出现不良结果，可能是人类自身在科学与迷信、真实与谬误上分辨不清。人类需要让机器更科学地思考，从体验中产生真实数据和真诚奖励机制，获得与人类对照的智能。

真正的智能体具备长期记忆、短期与长期目标，会在即时奖励机制中犯错，但能根据长期奖励机制纠错，实现持续纠错和终身学习。

下一代智能体对科学探索具有重大价值，摆脱以人为中心的强化学习后，将超越人类已有知识。体验式学习类似人类科学探索过程，AI智能体可在多领域自主实验，加速科学发现。

文章版权归作者所有，未经允许请勿转载。