OpenAI推三款新模型：GPT-4.1等性能卓越亮点多

AI快讯1年前 (2025)发布 niko

OpenAI 为开发者带来重磅消息，全新推出三款模型：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些模型具备高达 100 万Token 的超大上下文窗口，在代码处理、指令跟随等核心能力上超越 GPT-4o 及 GPT-4o mini，知识截止日期更新至 2024 年 6月。并且，GPT‑4.1 系列仅通过 APi 提供，已向所有开发者开放。

其中，GPT-4.1 nano 作为 OpenAI 首个 nano 模型，是目前可用模型中速度最快且价格最便宜的。其 MMLU 得分 80.1%，GPQA得分 50.3%，Aider 多语言编码基准 9.8%，远超 GPT-4o mini。GPT-4.1 mini 在多项基准测试中超越GPT-4o，速度翻倍同时成本降低 83%。而旗舰模型 GPT‑4.1 更是实力强劲，在编码、指令跟随和长上下文处理方面成绩斐然。在 SWE-benchVerified 测试中，GPT‑4.1 得分 54.6%，相比 GPT‑4o 提高 21.4%，比 GPT‑4.5 提高 26.6%；在 Scale 的MultiChallenge⁠测试中，得分为 38.3%，比 GPT‑4o 提高 10.5%；在 Video-MME 测试中，取得新的SOTA，长视频、无字幕类别得分 72.0%，比 GPT‑4o 提高 6.7%。

随着 GPT-4.1 的推出，饱受争议的 GPT‑4.5 Preview 将在 3 个月后（7 月 14 日）从 API 下架。OpenAI表示，GPT‑4.5 原本是研究预览版，旨在探索大规模、计算密集型的 LLM，未来会将开发者喜爱的特性融入新 API 模型。

现场 Demo 实测展示了 GPT-4.1 强大的编程能力。在编程任务中，要求做在线抽认卡网页应用，GPT-4.1 完成得十分流畅，仅需一个 prompt就能得到完整应用程序。生成单一 Python 文件代码应用，运行效果也很好。在大海捞针展示中，GPT-4.1成功从大量日志文件中找到特定内容，还能遵循负面指令，明确做到「不做某事」。

价格方面，GPT‑4.1 比 GPT‑4o 便宜 26%，输入、输出分别为每百万 token 2 美元和 8 美元。GPT‑4.1 nano价格最低、速度最快，输入、输出为 0.1 美元和 0.4 美元。新模型提示词缓存折扣从 50%提高至 75%，长上下文请求包含在标准按 Token计费内，无额外费用。

在编程能力上，GPT-4.1 相对其他模型有显著提升。在 SWE-bench Verified 测试中，完成任务比例大幅提高，处理代码差异可靠性更高。在Aider 多语言差异基准测试中，得分是 GPT‑4o 的 2 倍以上，比 GPT‑4.5 高出 8%。前端编码方面也有改进，人类评委80%倾向于其生成的网站。

指令跟随方面，OpenAI 开发内部评估体系。GPT-4.1 在处理困难提示词上表现出色，达到 49%正确率，接近 o1 和 o3-mini。在 ScaleAI 的 MultiChallenge 基准测试中，比 GPT‑4o 提升 10.5%，在 IFEval上得分也更高。它能更好提取对话历史信息，实现自然交互，但早期测试反馈可能更倾向字面指令，设计提示词时需更明确具体。

长上下文理解能力上，GPT‑4.1 等三款模型可处理最多 100 万 Token 上下文，远超 GPT‑4o 的 12.8 万Token。在「大海捞针」评估中均能成功检索信息。OpenAI 开源 OpenAI-MRCR 基准测试，GPT‑4.1 表现优异。在 Graphwalks多跳长上下文推理数据集中，GPT‑4.1 准确率达 61.7%，与 o1 性能持平，击败 GPT‑4o。

视觉方面，GPT‑4.1 系列图像理解能力强，特别是 GPT‑4.1 mini 表现突出，在多个图像基准测试中优于 GPT‑4o。在 Video-MME基准测试中，GPT‑4.1 得分 72.0%，高于 GPT‑4o 的 65.3%。

此次 OpenAI 新模型的发布，在多个领域展现出强大实力，为开发者带来更多可能。Jiahui Yu作为华人领队，目前负责感知团队，在深度学习和高性能计算领域有着丰富经验，曾参与多个重要项目，其履历也为团队增添光彩。

# AI快讯

文章版权归作者所有，未经允许请勿转载。