对于期望GPT-5能带来飞跃的人们来说,最新的消息可能并不乐观。
尽管GPT-5已经完成至少两轮训练,耗时数月,但每轮结束后都面临新的问题。专业团队正在从头开始为GPT-5创造数据,以满足其预训练的需求,包括专业编写代码、解决数学问题等。然而,尽管使用了o1合成数据,效率提升并不明显,满足GPT-5预训练需求的难度仍然很大。
按市场估算,为期6个月的单次训练计算成本高达5亿美元。GPT-5连续两次训练进展不顺,背后成本不可小觑。
不久前有专家在NeurIPS 2024上宣称预训练将终结,GPT-5研究的困境似乎为这一观点提供了证据。同时,也有媒体披露随着GPT系列进化速度放缓,相关机构正在尝试调整战略,并推出了新系列的产品。
目前,有关GPT-5的最新进展,研究团队尚无正式回应。
GPT-5预训练难度巨大
在GPT-5的预期中,其应能进行科学探索发现,并完成各种人类例行任务,比如预约、订航班等。它应减少错误发生,或至少能够承认错误存在,这与早期透露的信息相呼应。把GPT-5的智能水平比作博士生,意味着它能够理解、推理,并具备专业知识,而GPT-3则被视为蹒跚学步的孩子,[GPT-4](https://ai-kit.cn/sites/1023.html)是高中生。
公开信息显示,在最新一轮融资中,相关机构筹集到66亿美元,估值达到了1570亿美元。投资者看中的正是GPT-5潜在的巨大飞跃。然而,GPT-5的发布一直未能确定,相关机构也曾表示将等待真正准备好后再发布GPT-5,具体时间可能是2025年至2026年。
项目挑战:GPT-5的开发和资源需求
从已有的信息来看,GPT-5的发展一直充满挑战。2023年,由于一个名为Arrakis的模型无法在保持性能的同时减少对计算资源的需求,该项目被放弃。这反映了为了提升模型规模,需要更庞大的计算资源和更长的时间。
GPT-5的开发从GPT-4发布开始,至今已经超过18个月。华尔街日报披露,GPT-5至少进行了两轮大规模训练,每次都需要数月时间,并且每次都遇到了新问题。
即使最佳情况下,GPT-5的模型表现超过现有产品,但消耗的成本与之相比,提升并不明显。公共资源的数据消耗完毕后,研究团队决定雇人从头构建数据。他们找来软件工程师、数学家构建数据,供GPT-5进行学习。
普遍认为,模型学习代码能够提高其解决其他问题的能力。同时,相关团队也与物理学家合作,让GPT-5学习科学家如何理解领域内的问题。然而,这样构建数据的方法太慢了。
AI合成数据和新范式
AI圈内普遍看好模型学习代码的能力提升。同时,也有使用AI合成数据来训练模型的情况。比如,GPT-5就使用了o1合成的数据。这种范式可能已经被证明是有效的,甚至有团队把最好用的模型内部保留合成数据,因为模型性能与合成数据质量直接相关。
最近,o3系列在[ARC](https://ai-kit.cn/sites/775.html)-AGI测试上取得了突破。最新的结果报告显示,在400项公共任务上,o3的最佳成绩已经达到91.5%。在核心机制上,o3通过LLM在token空间内搜索和执行,实现了测试时的知识重组,成为了通向AGI的新范式。
随着o3系列的发布,AGI的预言依旧具有吸引力。简单介绍一下ARC-AGI数据集,题目以色块的网格阵列表示,大模型需要观察每道题中的3个输入-输出示例,然后根据规律填写新的空白网格。
ARC-AGI测试集包含400道公开试题和100个私有问题。公开问题中,o3高效率版的准确率为82.8%,消耗1.11亿Token,平均每个任务成本为17美元。而低效率版本(计算量是高效版的172倍),准确率高达91.5%,但消耗的Token数也达到了惊人的95亿。
OpenAI还做了一个专门针对ARC-AGI的版本,该版本使用75%的公开数据集进行了训练,该版本在测试集上取得了不错成绩,优化了计算量和效果。
之前,GPT-3的准确率为零,[GPT-4o](https://ai-kit.cn/sites/1771.html)为5%,o1最好也超过30%。ARC挑战发起者François Chollet认为,o3能够适应以前从未遇到过的任务,在ARC-AGI领域接近人类水平。
当然,成本也十分昂贵,即使是低计算量模式,每个任务也需要17-20美元,而雇佣真人解决此类问题的成本平均每题只有5美元。
撇开成本问题,Chollet指出,o3对GPT系列的改进证明了架构的重要性,认为无法通过在GPT-4上投入更多计算来获得这样的成绩。
所以,通过ARC-AGI测试,意味着o3实现AGI了吗?Chollet认为并不是。通过测试发现,o3在一些非常简单的任务上仍然失败,表明其与人类智能存在根本差异。
总之,不管是否达到AGI,o3能够实现的成绩都是前所未有的,并已证明是一种新的范式。英伟达AI科学家Jim Fan认为,o3的本质是覆盖更多有用问题空间中的点。而AGI的讨论仍在继续,范麟熙表示,我们已经实现了巨大的里程碑,并有清晰的路线图,但仍有更多工作要做。
最后,OpenAI还发布了一篇关于安全问题的论文,引入了名为慎重对齐的新方法,证实推理将提高模型安全性的新途径。