GPT-5发布：虽有图表bug，但凭多模态能力与AIME满分成绩成AI新王者

近日，OpenAI深夜发布了备受瞩目的 GPT-5。不过，发布伊始便出现状况。在全球直播展示Benchmark时，OpenAI竟将数据坐标“按需缩放”，让52.8显示得比69.1还高，甚至69.1与30.8平齐。这一操作让号称“博士水平” 的AI，瞬间遭到网友怒喷。Altman急忙转移话题，称技术博客上数据正确，可如此失误，对于大家等了两年才发布的产品来说，着实不该。

抛开这一失误，GPT-5的表现可圈可点。OpenAI在技术博客中宣称，这是“迄今为止最智能、最快速、最实用的模型，内置思考能力能让每个人拥有专家级智能”。此次发布的GPT-5 有四个版本，包括在不同领域Coding和执行任务的标准模式、适用于明确任务场景的轻量版 GPT-5 mini、强调运行速度和性价比的 GPT-5 nano ，以及在 chatgpt中使用的 GPT-5 Chat 。目前，GPT-5面向普通用户提供免费、plus和Pro三种模式，在APi平台也推出了 GPT-5 、GPT-5 nano 、GPT-5 mini三种模型选择。并且，承接此前开源举措，GPT-5 面向所有人免费开放。

从评测来看，GPT-5 成绩优异。在 AIME 2025 中，它直接 拿下满分。编程能力上，在思考模式加持下达到74.9%的水平。其多模态能力也很强，在图像、视频、空间理解和科学推理等多种多模态评测中表现出色，使ChatGPT处理非文字信息更聪明。第三方大模型竞技场（Imarena.ai）评价GPT-5 “全方面第一”，涉及文本、Web开发、视觉、编程、数学、创造力、长查询等内容。

实际效果方面，Sam Altman在X账号发布了 GPT-5 生成的效果，并表示有权限的用户可发送特定指令体验。直播现场演示中，GPT-5也有惊艳表现。比如生成学语法的APP，不仅能完成常规AI交互，还内嵌小游戏，且一句话就能改变APP布局。对于复杂项目，用 GPT-5编程代码运行后能得到3D效果的“世界”。

然而，用户反馈不一。X上讨论最激烈的是图表bug，有网友用Excel表格讽刺。但老东家微软CEO火速站台支持，VS Code官方也无缝衔接GPT-5 。不过，普通用户反馈“说好的免费，ChatGPT却没更新”。GPT-5 能否让用户买单，还需时间检验。

# AI快讯

文章版权归作者所有，未经允许请勿转载。