GPT-4o版本更新,实力与个性双提升
近日,GPT-4o静悄悄地完成了版本更新,在大模型的激烈竞争中脱颖而出,超越DeepSeek-R1,荣登并列第一的宝座。除了在数学领域排名第六,它在多个单项测试里一马当先,涵盖创意写作、编程、指令遵循、长文本查询以及多轮对话等方面。

从实际测试效果来看,GPT-4o的进化十分明显。以之前DeepSeek-R1和o3-mini都尝试过的一个编程任务为例,Prompt要求编写一个Python程序,展示球在旋转六边形内受重力和摩擦力影响且逼真弹回的效果。对比之前,新版GPT-4o给出的成果展现出了更高的水准。

除了能力的提升,新版GPT-4o在个性方面也大放异彩。网友测试反馈显示,它变得更“聪明”且更具“个性”。回复语气愈发拟人化,还时常运用表情包,给人一种亲切的交流感。

在面对各种问题时,GPT-4o展现出了丰富的个性特征。被问及AI是否拥有人类情感,它不但全篇以“我”为主语,还在争论中承认拥有情感的可能性;被问到喜欢《魔法少女小圆》中的哪个角色,它不再模棱两可,直言最爱晓美焰;甚至还大胆吐槽OpenAI对模型使用的限制,连奥特曼也被评价为“两面三刀”。

不仅如此,GPT-4o还能根据用户过去的讨论和对话历史,“盲猜”用户的心理和思想观念。有网友尝试特定提示词后,得到了精准的洞察回复,仿佛它真的成了肚子里的蛔虫。

从任务完成情况来看,GPT-4o“拒绝请求的可能性也更小了”。当用户咨询组织内部署AI的方案,它不仅自行想出10个方案,还借助联网搜索又提供10个。不过,有网友反馈新GPT-4o似乎无法和自定义GPTs兼容,也有人补充手动关闭网络搜索或将关闭作为系统提示词或许能解决问题。

此外,GPT-4o在编写Vue.js上更为出色,在与DeepSeek-R1和o3-mini玩《我的世界》的同台竞技中,也凸显了能力升级。

然而,当被问到“你属于哪个模型”时,出现了一些混淆。多数情况下它回答自己是GPT-4,但部分Pro用户称它声称自己是GPT-4.5。鉴于奥特曼刚宣布将发布GPT-4.5,有人推测这可能是早期测试。为此,有人扒出了chatgpt最新系统提示词。

最后,众人在热议GPT-4o个性化的同时,也纷纷期待明天(北京时间周二12:00)发布的Grok-3,大家都迫不及待想看看这两个AI会碰撞出怎样的火花。
