近日,OpenAI深夜发布了备受瞩目的 GPT-5。不过,发布伊始便出现状况。在全球直播展示Benchmark时,OpenAI竟将数据坐标“按需缩放”,让52.8显示得比69.1还高,甚至69.1与30.8平齐。这一操作让号称“博士水平” 的AI,瞬间遭到网友怒喷。Altman急忙转移话题,称技术博客上数据正确,可如此失误,对于大家等了两年才发布的产品来说,着实不该。
抛开这一失误,GPT-5的表现可圈可点。OpenAI在技术博客中宣称,这是“迄今为止最智能、最快速、最实用的模型,内置思考能力能让每个人拥有专家级智能”。此次发布的GPT-5 有四个版本,包括在不同领域Coding和执行任务的标准模式、适用于明确任务场景的轻量版 GPT-5 mini、强调运行速度和性价比的 GPT-5 nano ,以及在chatgpt中使用的 GPT-5 Chat 。目前,GPT-5面向普通用户提供免费、plus和Pro三种模式,在APi平台也推出了 GPT-5 、GPT-5 nano 、GPT-5 mini三种模型选择。并且,承接此前开源举措,GPT-5 面向所有人免费开放。
从评测来看,GPT-5 成绩优异。在 AIME 2025 中,它直接 拿下满分。编程能力上,在思考模式加持下达到74.9%的水平。其多模态能力也很强,在图像、视频、空间理解和科学推理等多种多模态评测中表现出色,使ChatGPT处理非文字信息更聪明。第三方大模型竞技场(Imarena.ai)评价GPT-5 “全方面第一”,涉及文本、Web开发、视觉、编程、数学、创造力、长查询等内容。
实际效果方面,Sam Altman在X账号发布了 GPT-5 生成的效果,并表示有权限的用户可发送特定指令体验。直播现场演示中,GPT-5也有惊艳表现。比如生成学语法的APP,不仅能完成常规AI交互,还内嵌小游戏,且一句话就能改变APP布局。对于复杂项目,用 GPT-5编程代码运行后能得到3D效果的“世界”。
然而,用户反馈不一。X上讨论最激烈的是图表bug,有网友用Excel表格讽刺。但老东家微软CEO火速站台支持,VS Code官方也无缝衔接GPT-5 。不过,普通用户反馈“说好的免费,ChatGPT却没更新”。GPT-5 能否让用户买单,还需时间检验。