GPT-4.1性能实测：编码惊艳但仍逊于Gemini 2.5 Pro

在AI模型的激烈竞争中，GPT-4.1的出现引发关注。号称将淘汰GPT-4.5的GPT-4.1，其实力究竟如何？众多实测结果显示，它虽表现可圈可点，但在与Gemini2.5 Pro和Claude 3.7 Sonnet的较量中，仍稍逊一筹。

仅仅两个月，GPT-4.5就已“出局”，被GPT-4.1“拍在了沙滩上”。GPT-4.1家族凭借更强的编码性能、百万token上下文长度以及更具性价比的价格，直接“击穿”了GPT-4.5。其中，nano版的GPT-4.1性能媲美GPT-4omini，且速度更快、价格更低。

目前，这些模型仅在APi中提供。不过，热门编码平台Windsurf和Cursor推出福利，用户可享受七天免费体验GPT-4.1。随之而来的，是全网首波实测。

GPT-4.1编码惊艳，却难敌Gemini 2.5

以超强编码著称的GPT-4.1，在实际任务中的表现备受关注。OpenAI科学家称，GPT-4.1虽非推理模型，但在软件工程基准测试中取得了55%的高分。网友FlavioAdamo用同一提示测试了GPT-4.1三款模型和GPT-4.5的编码表现，结果显示，GPT-4.1能精准模拟小球物理运动，而GPT-4.1-mini和GPT-4.1-nano表现稍差，GPT-4.5的实力也不逊色于GPT-4.1。

在其他测试中，GPT-4.1在旋转正方形模拟球体弹跳、生成教育物理模拟代码、贪吃蛇游戏生成等任务中，都展现出不错的编码能力。然而，与Gemini 2.5Pro相比，GPT-4.1在综合性能上仍有差距。在Aider多语言编码测试和Livebench基准评估中，GPT-4.1的得分和表现均不如Gemini2.5 Pro，在GPQA Diamond知识问答基准测试中，也未达到人类博士级水平。

谷歌包围圈形成，OpenAI仍具潜力

随着GPT-4.1的发布，Ai2后训练负责人NathanLambert分析认为，这一版本更新让人们认识到，驱动最佳API业务的是不同模型。OpenAI正通过GPT-4.1将API和 chatgpt分离，优化模型的智能成本，未来ChatGPT和API业务将呈现不同发展方向。

近期，OpenAI不断进行小幅更新，旨在将ChatGPT打造成独立于API的单体应用。尽管这些更新并非颠覆性突破，但反映了其战略重心。目前，ChatGPT周活跃用户已破19亿，与其他注重编码或信息处理的产品不同，ChatGPT更注重个性、氛围感和娱乐性。

从价格对比来看，OpenAI新模型与谷歌Gemini各有优劣。GPT-4o-mini性能落后，OpenAI需在Gemini占据优势的领域实现突破，才能在API业务上取得成功。

模型来源猜测：从GPT-4.5蒸馏而来？

许多人发现，OpenAI新模型发布模式相似，却很少解释具体改进原因。因此，推测这些新模型是为获得更好个性和推理能力，从GPT-4.5蒸馏而来，或在编码和数学方面借鉴了o3等模型。新模型在代码方面有重大进步，但在编码和数学评估上，仍落后于顶尖模型。

先发优势难撼动

对于普通用户而言，技术细节意义不大，“模型投入度”滑块更为直观。虽然用户对聊天机器人订阅费较为犹豫，但个性化体验往往存在于集成应用程序中。尽管开发者可通过API构建竞品，但OpenAI在产品层面的先发优势巨大，想要超越并非易事。产品化仍是当前AI发展的关键，OpenAI虽在努力，但实现愿景仍需时日。

# AI快讯

文章版权归作者所有，未经允许请勿转载。