OpenAI推陈出新:GPT-4.1系列模型及全新推理模型的震撼登场

AI快讯4天前发布 niko
3 0
AiPPT - 一键生成ppt

OpenAI在AI领域动作频繁,先是调整APi使用规则,规定未来访问旗下最新大模型需通过身份验证的ID,未通过验证将影响模型使用。这一举措引发的争议尚未平息,OpenAI又在今日凌晨推出三款GPT-4.1系列模型,且这些模型只能通过API使用,不会直接出现在chatgpt中。

GPT-4.1系列模型各具特色。GPT-4.1作为旗舰模型 ,在编码、指令遵循和长上下文理解方面表现卓越,适合处理复杂任务;GPT-4.1mini是小型高效模型 ,在多个基准测试中超越GPT-4o,延迟降低近半,成本降低83%,适用于对性能要求高效的场景;GPT-4.1nano则是OpenAI首个超小型模型 ,速度最快、成本最低,拥有100万token上下文窗口,适合低延迟任务如分类和自动补全。

尽管GPT-4.1的命名饱受网友吐槽,但其实力不容小觑。OpenAI宣称该系列模型在多项基准测试中表现出色,是当前强大的编程模型之一。例如,它能自主完成复杂编码任务,提升前端开发能力,减少多余代码修改,更好地遵循diff格式,工具调用也更加一致稳定。在真实软件工程能力的评估标准SWE-bench Verified基准测试中,GPT-4.1得分远超GPT-4o和GPT-4.5。

在不同测试场景下,GPT-4.1都展现出优势。在前端开发任务盲测中,多数评估者偏爱其生成的网页;在真实对话的多轮交互任务中,GPT-4.1在信息记忆和引用方面比GPT-4o有显著提升;在以明确指令为基础的IFEval测试集中,GPT-4.1也力压GPT-4o;在多模态长上下文基准Video-MME的无字幕长视频类别中,GPT-4.1同样领先GPT-4o。

模型小型化是AI商业化趋势,GPT-4.1 mini和GPT-4.1 nano表现突出。GPT-4.1mini在多项测试中超越GPT-4o,且延迟和成本优势明显;GPT-4.1nano速度快、成本低,支持100万token上下文窗口,在多项测试中得分高于GPT-4o mini,适合轻量任务。

值得一提的是,GPT-4.1只能通过API使用 ,不过ChatGPT的GPT-4o版本已悄悄加入其部分功能,未来还会增加更多。另外,GPT-4.5Preview将于2025年7月14日下线,开发者API的核心模型将逐步替换为GPT-4.1。官方解释称,GPT-4.1在性能、成本和速度上更优,而GPT-4.5中受用户喜爱的风格会在后续模型保留。

长文本处理是GPT-4.1系列的亮点,其支持高达100万token的超长上下文处理能力,远超GPT-4o。在相关测试中,GPT-4.1精准检索超长上下文信息,区分相似请求和跨位置推理能力强,准确率高。且其响应速度快,OpenAI还优化了提示缓存机制,使用成本更低。

OpenAI在直播演示中,通过两个案例展示了GPT-4.1强大的长上下文处理和严格指令遵循能力。在第一个案例中,GPT-4.1创建网站并成功在大型文件中找出异常记录;第二个案例中,模型严格遵循设定规则,与GPT-4o形成对比。

总之,GPT-4.1核心优势显著,适配多个场景,是众多任务的理想选择。此外,OpenAI还在推理模型和编程Agent方面有新进展。据消息称,OpenAI计划推出能跨学科整合概念的全新AI模型,这类推理模型在处理可验证问题时表现出色,可提升科研效率。同时,OpenAI正在开发具备“自主能力”的软件工程师A-SWE,它能独立完成应用开发及相关工作,将放大工程团队战斗力。

© 版权声明
Trea - 国内首个原生AI IDE