OpenAI 为开发者带来重磅消息,全新推出三款模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些模型具备高达 100 万Token 的超大上下文窗口,在代码处理、指令跟随等核心能力上超越 GPT-4o 及 GPT-4o mini,知识截止日期更新至 2024 年 6月。并且,GPT‑4.1 系列仅通过 APi 提供,已向所有开发者开放。
其中,GPT-4.1 nano 作为 OpenAI 首个 nano 模型,是目前可用模型中速度最快且价格最便宜的。其 MMLU 得分 80.1%,GPQA得分 50.3%,Aider 多语言编码基准 9.8%,远超 GPT-4o mini。GPT-4.1 mini 在多项基准测试中超越GPT-4o,速度翻倍同时成本降低 83%。而旗舰模型 GPT‑4.1 更是实力强劲,在编码、指令跟随和长上下文处理方面成绩斐然。在 SWE-benchVerified 测试中,GPT‑4.1 得分 54.6%,相比 GPT‑4o 提高 21.4%,比 GPT‑4.5 提高 26.6%;在 Scale 的MultiChallenge测试中,得分为 38.3%,比 GPT‑4o 提高 10.5%;在 Video-MME 测试中,取得新的SOTA,长视频、无字幕类别得分 72.0%,比 GPT‑4o 提高 6.7%。
随着 GPT-4.1 的推出,饱受争议的 GPT‑4.5 Preview 将在 3 个月后(7 月 14 日)从 API 下架。OpenAI表示,GPT‑4.5 原本是研究预览版,旨在探索大规模、计算密集型的 LLM,未来会将开发者喜爱的特性融入新 API 模型。
现场 Demo 实测展示了 GPT-4.1 强大的编程能力。在编程任务中,要求做在线抽认卡网页应用,GPT-4.1 完成得十分流畅,仅需一个 prompt就能得到完整应用程序。生成单一 Python 文件代码应用,运行效果也很好。在大海捞针展示中,GPT-4.1成功从大量日志文件中找到特定内容,还能遵循负面指令,明确做到「不做某事」。
价格方面,GPT‑4.1 比 GPT‑4o 便宜 26%,输入、输出分别为每百万 token 2 美元和 8 美元。GPT‑4.1 nano价格最低、速度最快,输入、输出为 0.1 美元和 0.4 美元。新模型提示词缓存折扣从 50%提高至 75%,长上下文请求包含在标准按 Token计费内,无额外费用。
在编程能力上,GPT-4.1 相对其他模型有显著提升。在 SWE-bench Verified 测试中,完成任务比例大幅提高,处理代码差异可靠性更高。在Aider 多语言差异基准测试中,得分是 GPT‑4o 的 2 倍以上,比 GPT‑4.5 高出 8%。前端编码方面也有改进,人类评委80%倾向于其生成的网站。
指令跟随方面,OpenAI 开发内部评估体系。GPT-4.1 在处理困难提示词上表现出色,达到 49%正确率,接近 o1 和 o3-mini。在 ScaleAI 的 MultiChallenge 基准测试中,比 GPT‑4o 提升 10.5%,在 IFEval上得分也更高。它能更好提取对话历史信息,实现自然交互,但早期测试反馈可能更倾向字面指令,设计提示词时需更明确具体。
长上下文理解能力上,GPT‑4.1 等三款模型可处理最多 100 万 Token 上下文,远超 GPT‑4o 的 12.8 万Token。在「大海捞针」评估中均能成功检索信息。OpenAI 开源 OpenAI-MRCR 基准测试,GPT‑4.1 表现优异。在 Graphwalks多跳长上下文推理数据集中,GPT‑4.1 准确率达 61.7%,与 o1 性能持平,击败 GPT‑4o。
视觉方面,GPT‑4.1 系列图像理解能力强,特别是 GPT‑4.1 mini 表现突出,在多个图像基准测试中优于 GPT‑4o。在 Video-MME基准测试中,GPT‑4.1 得分 72.0%,高于 GPT‑4o 的 65.3%。
此次 OpenAI 新模型的发布,在多个领域展现出强大实力,为开发者带来更多可能。Jiahui Yu作为华人领队,目前负责感知团队,在深度学习和高性能计算领域有着丰富经验,曾参与多个重要项目,其履历也为团队增添光彩。