Grok 3与Scaling Law：大模型训练的性价比之辩

媒体风向瞬息万变，关于大模型训练的观点也在不断更迭。早上还在盛赞DeepSeek成本低、性价比高，宣称预训练Scaling Law失效；中午Grok3一登场，因其使用大量英伟达H100卡且效果出色，又有人认为Scaling Law依然成立。那么，事实究竟如何？

预训练阶段的Scaling Law的真相 预训练阶段的Scaling Law是成立的。所谓“ScalingLaw撞墙”，实则是数据短缺所致，这使得其走势趋缓，但并非停滞，远未触及天花板。依照Chinchilla ScalingLaw推断，即便缺乏新数据，增大基座模型尺寸仍可提升模型效果，只是算力与效果提升的性价比欠佳。当前，提升模型效果的Scaling方法按性价比排序为：Testtime Scaling Law＞RL Scaling Law＞预训练阶段Scaling Law（数据不足时只能增大模型尺寸）。若RL ScalingLaw和Test Time Scaling Law发展受限，且无更优Scaling方法，回归预训练阶段ScalingLaw，推大模型尺寸，模型效果仍会提升，不过这通常是无奈之举。此外，虽囤大量GPU算力对训练最佳模型并非必需，如DeepSeek用2000卡也能做出好模型，但卡多能大幅缩短实验新想法和训练大模型基座的时间周期，对探索效率助力极大。

Grok 3基座模型剖析 Grok3作为通用基座模型，其评测指标仅涵盖数学、科学和代码数据集，缺乏通用能力指标对比，推测其通用能力相对OpenAI和DeepSeek模型无显著提升。提升基座模型数学、科学和代码能力，从方法和成本角度看难度不大，类似DeepSeekV3从DeepSeek R1蒸馏长COT数据的做法较为常见。OpenAI即将发布的GPT 4.5可能也会采用类似思路提升基座模型能力。Grok3算力消耗是Grok 2的10倍，依据Chinchilla ScalingLaw，其训练数据量和模型大小应相应增加。若消息属实，存在两种可能：一是数据量大幅增长，可能增加大量多模态数据；二是训练数据量增加不多，模型尺寸大幅增大。无论哪种情况，Grok3尺寸规模较大，且其采用推大基座模型尺寸的传统做法提升能力，性价比不高。

Grok 3逻辑推理版本解读 Grok 3深度思考版本在评测指标上达到或超越o3 mini，是目前效果最佳的之一。Grok3采用推大预训练阶段模型尺寸的模式，可能是因为Post-Training阶段的RL Scaling效果与基座模型大小正相关。这也引发对DeepSeekR1的思考，其模型基座大可能是为保证深度思考模型效果。若此假设成立，三个Scaling Law提高大模型智商的性价比排序为：TestTime＞RL＞Pre-Train，且各阶段Scaling天花板存在依赖关系。若RL和TestTime天花板到顶，可推大基座模型尺寸，提升RL阶段Scaling天花板，进而获得更高智商的大模型。当然，这一推论基于Grok3决策并非受老观念影响的前提。

# AI快讯

文章版权归作者所有，未经允许请勿转载。