OpenAI新模型o3:具备强大图像思考与推理能力

AI快讯4周前发布 niko
0 0
AiPPT - 一键生成ppt

OpenAI新模型发布 :OpenAI于昨日凌晨发布了两款新模型,o3与o4-mini。其中,o3展现出独特的ThINKing withimages图像思考能力,能将图像融入思维链进行推理。

o3的强大推理表现:在实际测试中,o3展现出惊人能力。将一张3年前照片提供给o3,它仅用时7分钟,便精准分析出拍摄所在的城市、园区及具体河边位置。在无文字信息的照片测试里,o3仅思考1分39秒,就正确判断出拍摄地为贵州乌蒙大草原。此外,o3还能通过照片推测拍摄时间,以及在群体照片中锁定目标人物、识别汽车仪表盘、判断鸟类品种等。

o3的推理过程与方法:以推测照片拍摄地为例,o3先通过观察屋脊天窗、岸边护栏、屋檐线条灯等细节,判断是新晋景区或特色小镇。接着,通过照片招牌文字搜索相关信息,确定酒店位置。然后结合照片积雪与文件名日期查询天气,再参考官方报道和游记,最终锁定拍摄地点。在判断乌蒙大草原时,o3依据视野、植物、风车等特征,识别出独有的特征组合从而得出结论。

o3的局限性 :尽管o3表现出色,但并非无往不胜。在一些测试中,o3出现失误,如将平潭照片猜成厦门,广东韶关站照片误判为广西恭城,MacApp截图认错软件等。

o3能力提升的核心:o3能力升级的核心在于“强化学习”。OpenAI发现,如同算力与AI性能的关系,在强化学习中,给予模型更长思考时间,其能力会更强大。o3借此学会使用工具并推理工具使用时机,通过大量信息、充足时间和强大推理能力,实现出色表现。

引发的思考 :o3的出现推动了AI进程,但也引发担忧,在AI能读懂照片的时代,个人信息保护面临更大挑战。

© 版权声明
Trea - 国内首个原生AI IDE