AI行业的预训练范式转变:小模型时代的来临
最近,有观点宣称预训练已经结束,声称数据资源的有限导致模型训练的海量数据即将枯竭。这一论点源自一段时间内的行业动态,前OpenAI首席科学家Ilya宣称预训练的结束可能影响到未来AI的发展方向。但是,预训练真的走到了尽头吗?多位行业权威对此提出了质疑和反驳。
大佬反驳Ilya观点
谷歌专家Logan Kilpatrick质疑Ilya的观点,认为认为预训练结束的观念是因为缺乏想象力。前Meta团队的高级总监Dhruv Batra同样站出来表示Ilya是错误的,他认为人类数据的潜力还未被完全挖掘,尽管人类书写的文本已接近枯竭,但视频等数据仍然远超处理能力。
数据预训练的广阔天地
实际上,除了文本,还有音频、视频、图像等多种类型的数据可以用于预训练,甚至可以考虑赋予机器视觉、嗅觉、触觉等多种人类进化出来的功能。如果预训练能够跨越至生物连接、仿真数据等新领域,其发展的可能性仍然是无限的。
Scaling Law与预训练的未来
这个观点转变的关键点在于预训练的发展是否真的遇到了瓶颈。早期,Ilya曾倡导通过增加数据和算力来提高模型性能,但现在他认识到这种方法可能已不适用,并转向研究新的预训练方法。其他媒体和研究者则认为预训练的维度远不止当前的规模,预训练的未来仍将不断演进。
SOTA模型参数规模的变化
从Transformer架构诞生到GPT系列模型的发布,模型的规模不断变大,但其增长幅度呈现递减的势头。2017年GPT-1到GPT-3的模型参数量增加了1000倍,从GPT-3到GPT-4仅增加了10倍。但在2023年,预训练模型参数规模的增长趋势出现了逆转,据估计最新SOTA模型的参数可能小于GPT-4的量级。
模型规模收缩的原因
前线模型参数规模的收缩可能由以下四个因素引起:
AI需求增长导致的模型优化:AI产品需求的大增导致服务商在推理请求方面的压力激增。较小规模的模型在推理计算上更有优势,降低了成本,提升了服务效率。
模型蒸馏技术的提升:实验室通过蒸馏技术使小型模型性能媲美大型模型,增强了小型模型的竞争力。
训练数据规模和多样性:新的发展理论表明,通过增加训练数据规模而非参数量也能提高模型的性能。
推断效率的重要性:随着模型在复杂推理任务中的运行效率变得至关重要,实验室开始注重提升模型的推断速度和低延迟能力。
结语
奥特曼曾预言了围绕模型参数量的竞赛的终结,类似于历史上追求处理器主频的行为。尽管目前的数据显示模型规模有缩小的趋势,但AI技术的发展迅速,未来是否还会继续减小,或者是恢复或超出GPT-4的规模,还需时间来验证。随着硬件的进步和对预训练优化的不断探索,我们将迎来AI领域的新突破。