媒体风向瞬息万变,关于大模型训练的观点也在不断更迭。早上还在盛赞DeepSeek成本低、性价比高,宣称预训练Scaling Law失效;中午Grok3一登场,因其使用大量英伟达H100卡且效果出色,又有人认为Scaling Law依然成立。那么,事实究竟如何?
预训练阶段的Scaling Law的真相 预训练阶段的Scaling Law是成立的。所谓“ScalingLaw撞墙”,实则是数据短缺所致,这使得其走势趋缓,但并非停滞,远未触及天花板。依照Chinchilla ScalingLaw推断,即便缺乏新数据,增大基座模型尺寸仍可提升模型效果,只是算力与效果提升的性价比欠佳。当前,提升模型效果的Scaling方法按性价比排序为:Testtime Scaling Law>RL Scaling Law>预训练阶段Scaling Law(数据不足时只能增大模型尺寸)。若RL ScalingLaw和Test Time Scaling Law发展受限,且无更优Scaling方法,回归预训练阶段ScalingLaw,推大模型尺寸,模型效果仍会提升,不过这通常是无奈之举。此外,虽囤大量GPU算力对训练最佳模型并非必需,如DeepSeek用2000卡也能做出好模型,但卡多能大幅缩短实验新想法和训练大模型基座的时间周期,对探索效率助力极大。
Grok 3基座模型剖析 Grok3作为通用基座模型,其评测指标仅涵盖数学、科学和代码数据集,缺乏通用能力指标对比,推测其通用能力相对OpenAI和DeepSeek模型无显著提升。提升基座模型数学、科学和代码能力,从方法和成本角度看难度不大,类似DeepSeekV3从DeepSeek R1蒸馏长COT数据的做法较为常见。OpenAI即将发布的GPT 4.5可能也会采用类似思路提升基座模型能力。Grok3算力消耗是Grok 2的10倍,依据Chinchilla ScalingLaw,其训练数据量和模型大小应相应增加。若消息属实,存在两种可能:一是数据量大幅增长,可能增加大量多模态数据;二是训练数据量增加不多,模型尺寸大幅增大。无论哪种情况,Grok3尺寸规模较大,且其采用推大基座模型尺寸的传统做法提升能力,性价比不高。
Grok 3逻辑推理版本解读 Grok 3深度思考版本在评测指标上达到或超越o3 mini,是目前效果最佳的之一。Grok3采用推大预训练阶段模型尺寸的模式,可能是因为Post-Training阶段的RL Scaling效果与基座模型大小正相关。这也引发对DeepSeekR1的思考,其模型基座大可能是为保证深度思考模型效果。若此假设成立,三个Scaling Law提高大模型智商的性价比排序为:TestTime>RL>Pre-Train,且各阶段Scaling天花板存在依赖关系。若RL和TestTime天花板到顶,可推大基座模型尺寸,提升RL阶段Scaling天花板,进而获得更高智商的大模型。当然,这一推论基于Grok3决策并非受老观念影响的前提。