预训练模式的替代:Scaling Law的新兴维度

AI快讯6天前发布 niko
4 0

Scaling Law的过去与未来

近日,关于预训练可能即将结束的讨论不断加剧。这一观点在最新一届的研讨会中受到了广泛关注,并引发了一系列关于Scaling Law的热烈讨论。这场会议可能因对预训练时代的终结而被铭记。OpenAI内的一位核心成员Noam Brown在会议上提出了全新的观点,表示开放智能(o1)代表了基于推理计算的一个全新的发展阶段。

众多网友纷纷表示,Scaling Law并未消亡,并且仍在持续发展中。

Noam Brown以其在游戏AI领域的卓越成就享誉业界,曾在《Science》杂志封面上发表过相关研究。他离职于Meta后,将研究焦点转向了多步推理、自我对弈以及多智能体AI的研究上。在一次o1直播中,Noam Brown首次对Scaling Law的过去演变给出了见解。

AI的发展与Scaling Law

AI领域自2019年以来取得了令人难以置信的成就,如从GPT-2发展至GPT-4的演进,这一切进步归功于数据和计算能力的扩大。然而,即便是规模庞大的语言模型也无法解决如井字游戏这样的简单问题。这带来了一个问题,即Scaling是是否已经足够所需? 是否我们真的需要负担更高的成本去训练更先进的AI?

在这个过程中,推理成本被低估了,它在过去的扩展中要少得多。o1带来了Scaling的新维度。Noam Brown指出,历史上扑克模型的扩展在2012至2015年间规模每年增加了5倍,但收益相对较低。然而,基于“人类需要更长时间来思考更难的问题”的想法,增加了模型20秒的搜索时间,其效果大致相当于将模型规模扩大100000倍。

他还提到了在棋牌游戏中扩展推理的历史,如西洋棋背棋-国际象棋-围棋。AlphaGo Zero在原始NN基础上实现了从3000到5200的Elo增长,主要因为加入了test-time search(推理时间搜索)。另一个例子是Andy L. Jones制作的关于Scaling Laws of games的图表——表明可以用10倍的预训练计算量换取15倍的测试时间计算量。

未来发展的思考和讨论

Noam Brown进一步讨论了推理计算能力提升的未来方向。在过去的五年中,LLM(大语言模型)的概念仅限于聊天机器人,他坚信它们能够做得更好。

在讨论的尾声,Noam Brown也提到了其多智能体团队正在积极招募新成员。

对于话题的讨论,网友们也给出了自己的评论。一些人联想到了Ilya关于“预训练时代即将终结”的讨论。这一变化将使得市场不再如此看好英伟达。

不过,也有从业者站出来反驳说,推理时间计算并非新鲜事物,尝试将其排除后又因为需要而重新使用。对于游戏的顺序,许多游戏(包括国际象棋和围棋)最初都专注于推理时间计算,但后来偏好离线学习策略,从而节省了大量的在线计算时间。

减少面向用户的推理时间计算是一个经过深思熟虑的选择,导致领域开始改变对于计算复杂性的考虑方式。这个趋势在LLMs中也得到了延续——所有重点都放在了预训练上,推理时间的计算量可以忽略不计,从而对终端用户来说成本极低,甚至可以在本地边缘设备上完成。

Ilya在探讨未来超级智能时,提到了推理的不可预测性:推理的增加使系统变得更加不可预测,在一些复杂的任务中尤其明显。提及AI的发展,虽然当前系统不能真正理解和推理,但未来的AI将在推理和决策方面展现出更不可预测的能力。大模型未来将在哪些能力上扩展仍然是科学家们正在持续探索的问题。

One More Thing:原本,这个研讨会的主题应该是数学AI,然而它在Noam Brown的影响下转变为讨论大模型推理Scaling Law的问题。现场人员众多,房间太小导致门口还有20多人在排队等待。

参考链接

  • https://x.com/swyx/status/1867990396762243324
  • https://x.com/e__honig/status/1868002417045840243
  • https://x.com/drapersgulld/status/1868023022390485052
© 版权声明

相关文章

暂无评论

暂无评论...