在AI模型的激烈竞争中,GPT-4.1的出现引发关注。号称将淘汰GPT-4.5的GPT-4.1,其实力究竟如何?众多实测结果显示,它虽表现可圈可点,但在与Gemini2.5 Pro和Claude 3.7 Sonnet的较量中,仍稍逊一筹。
仅仅两个月,GPT-4.5就已“出局”,被GPT-4.1“拍在了沙滩上”。GPT-4.1家族凭借更强的编码性能、百万token上下文长度以及更具性价比的价格,直接“击穿”了GPT-4.5。其中,nano版的GPT-4.1性能媲美GPT-4omini,且速度更快、价格更低。
目前,这些模型仅在APi中提供。不过,热门编码平台Windsurf和Cursor推出福利,用户可享受七天免费体验GPT-4.1。随之而来的,是全网首波实测。
GPT-4.1编码惊艳,却难敌Gemini 2.5
以超强编码著称的GPT-4.1,在实际任务中的表现备受关注。OpenAI科学家称,GPT-4.1虽非推理模型,但在软件工程基准测试中取得了55%的高分。网友FlavioAdamo用同一提示测试了GPT-4.1三款模型和GPT-4.5的编码表现,结果显示,GPT-4.1能精准模拟小球物理运动,而GPT-4.1-mini和GPT-4.1-nano表现稍差,GPT-4.5的实力也不逊色于GPT-4.1。
在其他测试中,GPT-4.1在旋转正方形模拟球体弹跳、生成教育物理模拟代码、贪吃蛇游戏生成等任务中,都展现出不错的编码能力。然而,与Gemini 2.5Pro相比,GPT-4.1在综合性能上仍有差距。在Aider多语言编码测试和Livebench基准评估中,GPT-4.1的得分和表现均不如Gemini2.5 Pro,在GPQA Diamond知识问答基准测试中,也未达到人类博士级水平。
谷歌包围圈形成,OpenAI仍具潜力
随着GPT-4.1的发布,Ai2后训练负责人NathanLambert分析认为,这一版本更新让人们认识到,驱动最佳API业务的是不同模型。OpenAI正通过GPT-4.1将API和chatgpt分离,优化模型的智能成本,未来ChatGPT和API业务将呈现不同发展方向。
近期,OpenAI不断进行小幅更新,旨在将ChatGPT打造成独立于API的单体应用。尽管这些更新并非颠覆性突破,但反映了其战略重心。目前,ChatGPT周活跃用户已破19亿,与其他注重编码或信息处理的产品不同,ChatGPT更注重个性、氛围感和娱乐性。
从价格对比来看,OpenAI新模型与谷歌Gemini各有优劣。GPT-4o-mini性能落后,OpenAI需在Gemini占据优势的领域实现突破,才能在API业务上取得成功。
模型来源猜测:从GPT-4.5蒸馏而来?
许多人发现,OpenAI新模型发布模式相似,却很少解释具体改进原因。因此,推测这些新模型是为获得更好个性和推理能力,从GPT-4.5蒸馏而来,或在编码和数学方面借鉴了o3等模型。新模型在代码方面有重大进步,但在编码和数学评估上,仍落后于顶尖模型。
先发优势难撼动
对于普通用户而言,技术细节意义不大,“模型投入度”滑块更为直观。虽然用户对聊天机器人订阅费较为犹豫,但个性化体验往往存在于集成应用程序中。尽管开发者可通过API构建竞品,但OpenAI在产品层面的先发优势巨大,想要超越并非易事。产品化仍是当前AI发展的关键,OpenAI虽在努力,但实现愿景仍需时日。