GPT-5研究困境：训练多次遇挫，新数据创建成挑战

对于期望GPT-5能带来飞跃的人们来说，最新的消息可能并不乐观。

尽管GPT-5已经完成至少两轮训练，耗时数月，但每轮结束后都面临新的问题。专业团队正在从头开始为GPT-5创造数据，以满足其预训练的需求，包括专业编写代码、解决数学问题等。然而，尽管使用了o1合成数据，效率提升并不明显，满足GPT-5预训练需求的难度仍然很大。

按市场估算，为期6个月的单次训练计算成本高达5亿美元。GPT-5连续两次训练进展不顺，背后成本不可小觑。

不久前有专家在NeurIPS 2024上宣称预训练将终结，GPT-5研究的困境似乎为这一观点提供了证据。同时，也有媒体披露随着GPT系列进化速度放缓，相关机构正在尝试调整战略，并推出了新系列的产品。

目前，有关GPT-5的最新进展，研究团队尚无正式回应。

GPT-5预训练难度巨大

在GPT-5的预期中，其应能进行科学探索发现，并完成各种人类例行任务，比如预约、订航班等。它应减少错误发生，或至少能够承认错误存在，这与早期透露的信息相呼应。把GPT-5的智能水平比作博士生，意味着它能够理解、推理，并具备专业知识，而GPT-3则被视为蹒跚学步的孩子，[GPT-4](https://ai-kit.cn/sites/1023.html)是高中生。

公开信息显示，在最新一轮融资中，相关机构筹集到66亿美元，估值达到了1570亿美元。投资者看中的正是GPT-5潜在的巨大飞跃。然而，GPT-5的发布一直未能确定，相关机构也曾表示将等待真正准备好后再发布GPT-5，具体时间可能是2025年至2026年。

项目挑战：GPT-5的开发和资源需求

从已有的信息来看，GPT-5的发展一直充满挑战。2023年，由于一个名为Arrakis的模型无法在保持性能的同时减少对计算资源的需求，该项目被放弃。这反映了为了提升模型规模，需要更庞大的计算资源和更长的时间。

GPT-5的开发从GPT-4发布开始，至今已经超过18个月。华尔街日报披露，GPT-5至少进行了两轮大规模训练，每次都需要数月时间，并且每次都遇到了新问题。

即使最佳情况下，GPT-5的模型表现超过现有产品，但消耗的成本与之相比，提升并不明显。公共资源的数据消耗完毕后，研究团队决定雇人从头构建数据。他们找来软件工程师、数学家构建数据，供GPT-5进行学习。

普遍认为，模型学习代码能够提高其解决其他问题的能力。同时，相关团队也与物理学家合作，让GPT-5学习科学家如何理解领域内的问题。然而，这样构建数据的方法太慢了。

AI合成数据和新范式

AI圈内普遍看好模型学习代码的能力提升。同时，也有使用AI合成数据来训练模型的情况。比如，GPT-5就使用了o1合成的数据。这种范式可能已经被证明是有效的，甚至有团队把最好用的模型内部保留合成数据，因为模型性能与合成数据质量直接相关。

最近，o3系列在[ARC](https://ai-kit.cn/sites/775.html)-AGI测试上取得了突破。最新的结果报告显示，在400项公共任务上，o3的最佳成绩已经达到91.5%。在核心机制上，o3通过LLM在token空间内搜索和执行，实现了测试时的知识重组，成为了通向AGI的新范式。

随着o3系列的发布，AGI的预言依旧具有吸引力。简单介绍一下ARC-AGI数据集，题目以色块的网格阵列表示，大模型需要观察每道题中的3个输入-输出示例，然后根据规律填写新的空白网格。

ARC-AGI测试集包含400道公开试题和100个私有问题。公开问题中，o3高效率版的准确率为82.8%，消耗1.11亿Token，平均每个任务成本为17美元。而低效率版本（计算量是高效版的172倍），准确率高达91.5%，但消耗的Token数也达到了惊人的95亿。

OpenAI还做了一个专门针对ARC-AGI的版本，该版本使用75%的公开数据集进行了训练，该版本在测试集上取得了不错成绩，优化了计算量和效果。

之前，GPT-3的准确率为零，[GPT-4o](https://ai-kit.cn/sites/1771.html)为5%，o1最好也超过30%。ARC挑战发起者François Chollet认为，o3能够适应以前从未遇到过的任务，在ARC-AGI领域接近人类水平。

当然，成本也十分昂贵，即使是低计算量模式，每个任务也需要17-20美元，而雇佣真人解决此类问题的成本平均每题只有5美元。

撇开成本问题，Chollet指出，o3对GPT系列的改进证明了架构的重要性，认为无法通过在GPT-4上投入更多计算来获得这样的成绩。

所以，通过ARC-AGI测试，意味着o3实现AGI了吗？Chollet认为并不是。通过测试发现，o3在一些非常简单的任务上仍然失败，表明其与人类智能存在根本差异。

总之，不管是否达到AGI，o3能够实现的成绩都是前所未有的，并已证明是一种新的范式。英伟达AI科学家Jim Fan认为，o3的本质是覆盖更多有用问题空间中的点。而AGI的讨论仍在继续，范麟熙表示，我们已经实现了巨大的里程碑，并有清晰的路线图，但仍有更多工作要做。

最后，OpenAI还发布了一篇关于安全问题的论文，引入了名为慎重对齐的新方法，证实推理将提高模型安全性的新途径。

# AI快讯

文章版权归作者所有，未经允许请勿转载。