预训练模式的替代：Scaling Law的新兴维度

Scaling Law的过去与未来

近日，关于预训练可能即将结束的讨论不断加剧。这一观点在最新一届的研讨会中受到了广泛关注，并引发了一系列关于Scaling Law的热烈讨论。这场会议可能因对预训练时代的终结而被铭记。OpenAI内的一位核心成员Noam Brown在会议上提出了全新的观点，表示开放智能（o1）代表了基于推理计算的一个全新的发展阶段。

众多网友纷纷表示，Scaling Law并未消亡，并且仍在持续发展中。

Noam Brown以其在游戏AI领域的卓越成就享誉业界，曾在《Science》杂志封面上发表过相关研究。他离职于Meta后，将研究焦点转向了多步推理、自我对弈以及多智能体AI的研究上。在一次o1直播中，Noam Brown首次对Scaling Law的过去演变给出了见解。

AI的发展与Scaling Law

AI领域自2019年以来取得了令人难以置信的成就，如从GPT-2发展至GPT-4的演进，这一切进步归功于数据和计算能力的扩大。然而，即便是规模庞大的语言模型也无法解决如井字游戏这样的简单问题。这带来了一个问题，即Scaling是是否已经足够所需？ 是否我们真的需要负担更高的成本去训练更先进的AI？

在这个过程中，推理成本被低估了，它在过去的扩展中要少得多。o1带来了Scaling的新维度。Noam Brown指出，历史上扑克模型的扩展在2012至2015年间规模每年增加了5倍，但收益相对较低。然而，基于“人类需要更长时间来思考更难的问题”的想法，增加了模型20秒的搜索时间，其效果大致相当于将模型规模扩大100000倍。

他还提到了在棋牌游戏中扩展推理的历史，如西洋棋背棋-国际象棋-围棋。AlphaGo Zero在原始NN基础上实现了从3000到5200的Elo增长，主要因为加入了test-time search（推理时间搜索）。另一个例子是Andy L. Jones制作的关于Scaling Laws of games的图表——表明可以用10倍的预训练计算量换取15倍的测试时间计算量。