OpenAI o3在AI领域掀起了一阵风暴,其智商测试成绩令人瞩目。 o3以136分的高分刷新了门萨智商测试纪录,超越了此前登顶的Gemini2.5 Pro。在私有数据集问题上,o3也取得了116分的好成绩,均在所有模型中排名第一。
与人类平均智商100相比,o3的表现可谓卓越。自OpenAI o1模型起,AI的智商测试得分就开始超越人类平均水平,随着推理模型的发展,它们变得越来越聪明。
o3的强大不仅体现在智商上,其图像理解能力更是惊艳。知名投资人Deedy仅提供一张无标题及EXIF数据的手绘菜单图片,o3就能通过上网搜索、匹配菜单项找到中餐馆的位置。网友GoldenHawk使用o4-mini进行同样测试,也获得成功。
o3的发布还引发了反向地点搜索的新潮流。人们利用chatgpto3确定照片场景位置,o3能“理解”上传图像,还可进行裁剪、旋转和放大操作。例如,给o3一张无地理信息的照片,它能像侦探一样从照片线索中分析出拍摄地点。
在一次测试中,o3根据照片中的海岸景色,准确分析出拍摄地点可能是加利福尼亚州奥兰治县达纳角的丽思卡尔顿拉古纳尼格尔酒店内,并给出了酒店地址和经纬度坐标,经网友用Google地图确认,位置基本一致。
更多网友加入这一潮流,让o3玩起了GeoGuessr。o3在识别图片拍摄位置方面的表现使它上榜了GeoBench评测。不过,在该评测中,谷歌的模型表现突出,在“acw-02025025”数据上,Gemini2.5 Pro Experimental领先,o3排名第7。
尽管o3能力强大,但在解决一些对人类看似简单的问题时仍面临挑战。资深AI工程师TiborBlaho让o3识别有反光的时钟图片上的时间,o3花费7分21秒才给出正确答案,而o4-mini-high则给出了错误答案。不过,o4-mini也有快速给出准确时间的例子。
总体而言,o3和o4-mini在视觉推理问题上的表现尚不稳定,但凭借OpenAI的工程能力和模型的基础性能,这些问题有望得到优化。