OpenAI推陈出新：GPT-4.1系列模型及全新推理模型的震撼登场

OpenAI在AI领域动作频繁，先是调整APi使用规则，规定未来访问旗下最新大模型需通过身份验证的ID，未通过验证将影响模型使用。这一举措引发的争议尚未平息，OpenAI又在今日凌晨推出三款GPT-4.1系列模型，且这些模型只能通过API使用，不会直接出现在 chatgpt中。

GPT-4.1系列模型各具特色。GPT-4.1作为旗舰模型 ，在编码、指令遵循和长上下文理解方面表现卓越，适合处理复杂任务；GPT-4.1mini是小型高效模型 ，在多个基准测试中超越GPT-4o，延迟降低近半，成本降低83%，适用于对性能要求高效的场景；GPT-4.1nano则是OpenAI首个超小型模型 ，速度最快、成本最低，拥有100万token上下文窗口，适合低延迟任务如分类和自动补全。

尽管GPT-4.1的命名饱受网友吐槽，但其实力不容小觑。OpenAI宣称该系列模型在多项基准测试中表现出色，是当前强大的编程模型之一。例如，它能自主完成复杂编码任务，提升前端开发能力，减少多余代码修改，更好地遵循diff格式，工具调用也更加一致稳定。在真实软件工程能力的评估标准SWE-bench Verified基准测试中，GPT-4.1得分远超GPT-4o和GPT-4.5。

在不同测试场景下，GPT-4.1都展现出优势。在前端开发任务盲测中，多数评估者偏爱其生成的网页；在真实对话的多轮交互任务中，GPT-4.1在信息记忆和引用方面比GPT-4o有显著提升；在以明确指令为基础的IFEval测试集中，GPT-4.1也力压GPT-4o；在多模态长上下文基准Video-MME的无字幕长视频类别中，GPT-4.1同样领先GPT-4o。

模型小型化是AI商业化趋势，GPT-4.1 mini和GPT-4.1 nano表现突出。GPT-4.1mini在多项测试中超越GPT-4o，且延迟和成本优势明显；GPT-4.1nano速度快、成本低，支持100万token上下文窗口，在多项测试中得分高于GPT-4o mini，适合轻量任务。

值得一提的是，GPT-4.1只能通过API使用 ，不过ChatGPT的GPT-4o版本已悄悄加入其部分功能，未来还会增加更多。另外，GPT-4.5Preview将于2025年7月14日下线，开发者API的核心模型将逐步替换为GPT-4.1。官方解释称，GPT-4.1在性能、成本和速度上更优，而GPT-4.5中受用户喜爱的风格会在后续模型保留。

长文本处理是GPT-4.1系列的亮点，其支持高达100万token的超长上下文处理能力，远超GPT-4o。在相关测试中，GPT-4.1精准检索超长上下文信息，区分相似请求和跨位置推理能力强，准确率高。且其响应速度快，OpenAI还优化了提示缓存机制，使用成本更低。

OpenAI在直播演示中，通过两个案例展示了GPT-4.1强大的长上下文处理和严格指令遵循能力。在第一个案例中，GPT-4.1创建网站并成功在大型文件中找出异常记录；第二个案例中，模型严格遵循设定规则，与GPT-4o形成对比。

总之，GPT-4.1核心优势显著，适配多个场景，是众多任务的理想选择。此外，OpenAI还在推理模型和编程Agent方面有新进展。据消息称，OpenAI计划推出能跨学科整合概念的全新AI模型，这类推理模型在处理可验证问题时表现出色，可提升科研效率。同时，OpenAI正在开发具备“自主能力”的软件工程师A-SWE，它能独立完成应用开发及相关工作，将放大工程团队战斗力。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

OpenAI推陈出新：GPT-4.1系列模型及全新推理模型的震撼登场

热门AI工具

相关文章