AI行业的预训练范式转变：小模型时代的来临

AI行业的预训练范式转变：小模型时代的来临

最近，有观点宣称预训练已经结束，声称数据资源的有限导致模型训练的海量数据即将枯竭。这一论点源自一段时间内的行业动态，前OpenAI首席科学家Ilya宣称预训练的结束可能影响到未来AI的发展方向。但是，预训练真的走到了尽头吗？多位行业权威对此提出了质疑和反驳。

大佬反驳Ilya观点

谷歌专家Logan Kilpatrick质疑Ilya的观点，认为认为预训练结束的观念是因为缺乏想象力。前Meta团队的高级总监Dhruv Batra同样站出来表示Ilya是错误的，他认为人类数据的潜力还未被完全挖掘，尽管人类书写的文本已接近枯竭，但视频等数据仍然远超处理能力。

数据预训练的广阔天地

实际上，除了文本，还有音频、视频、图像等多种类型的数据可以用于预训练，甚至可以考虑赋予机器视觉、嗅觉、触觉等多种人类进化出来的功能。如果预训练能够跨越至生物连接、仿真数据等新领域，其发展的可能性仍然是无限的。

Scaling Law与预训练的未来

这个观点转变的关键点在于预训练的发展是否真的遇到了瓶颈。早期，Ilya曾倡导通过增加数据和算力来提高模型性能，但现在他认识到这种方法可能已不适用，并转向研究新的预训练方法。其他媒体和研究者则认为预训练的维度远不止当前的规模，预训练的未来仍将不断演进。

SOTA模型参数规模的变化

从Transformer架构诞生到GPT系列模型的发布，模型的规模不断变大，但其增长幅度呈现递减的势头。2017年GPT-1到GPT-3的模型参数量增加了1000倍，从GPT-3到GPT-4仅增加了10倍。但在2023年，预训练模型参数规模的增长趋势出现了逆转，据估计最新SOTA模型的参数可能小于GPT-4的量级。

模型规模收缩的原因

前线模型参数规模的收缩可能由以下四个因素引起：

AI需求增长导致的模型优化：AI产品需求的大增导致服务商在推理请求方面的压力激增。较小规模的模型在推理计算上更有优势，降低了成本，提升了服务效率。
模型蒸馏技术的提升：实验室通过蒸馏技术使小型模型性能媲美大型模型，增强了小型模型的竞争力。
训练数据规模和多样性：新的发展理论表明，通过增加训练数据规模而非参数量也能提高模型的性能。
推断效率的重要性：随着模型在复杂推理任务中的运行效率变得至关重要，实验室开始注重提升模型的推断速度和低延迟能力。

结语

奥特曼曾预言了围绕模型参数量的竞赛的终结，类似于历史上追求处理器主频的行为。尽管目前的数据显示模型规模有缩小的趋势，但AI技术的发展迅速，未来是否还会继续减小，或者是恢复或超出GPT-4的规模，还需时间来验证。随着硬件的进步和对预训练优化的不断探索，我们将迎来AI领域的新突破。

# AI快讯

文章版权归作者所有，未经允许请勿转载。