12月5日,国际人工智能公司OpenAI宣布全面推出两款新的AI模型——o1和o1-Pro,标志着o1模型的完整版正式亮相。与之前的o1-preview相比,全新的o1满血版增添了图片与文件上传功能,进一步提升多模态理解能力,但令人稍感遗憾的是网页搜索功能却依旧未能上线化。
从对比测试可见,o1在数学推理和编程方面的能力相较于旧版本o1-preview有了约50%的提升,而科研性能进展相对有限。无需额外费用即可使用的o1对于有需求的用户无疑是极具吸引力的。不过,对比下o1,全新的o1-Pro更引人瞩目。用户需要支付200美元月费才能先行体验o1-Pro,成为个人用户面临最昂贵AI订阅方案之一。
性能比较图显示,尽管o1-Pro在o1基础上有所提升,但对普通用户而言,o1供应的能力已能满足日常需要,并不强制追加200美元的较高费用。更贵的套餐涵盖了不限次数使用o1模型及高端语音功能的权限,对于需要频繁提问的用户是必选项。
在新的AI模型发布后,为了测试,我们特别比较了o1的多模态能力,同时邀请国内两款AI – kiki和文心一言 – 参与比较。
实测显示o1满血版并非占据「无敌之地」
以数学推理强项著称的o1,首先在这一领域进行了测试。公司的成本与商品售价关系向量问题,国产AI和o1都给出了正确的答案188.14万元,并且o1详尽展示了推导过程,充分展现o1模型注重推理合理性的定位。测试图片提问结果时,o1却在图形理解上失误,与正确选项擦肩而过。
在编程能力测试上,o1从思路到实现再到代码分析进行了全面答复,而国产AI则以简洁高效见长。在非专业领域的测试中,o1给出的烘焙教程详尽无比,精确到每个操作步骤,显示o1在细度方面的优势明显。
综上所述,o1模型虽然在细节回答上占有优势,但在正确性方面与国产AI并未处于优势地位。考虑到不同场景需求,o1更适合科研、金融工作人员使用,倒是kimi在数学测试上表现抢眼,成为无需付费的高性价比选择。
从直观认识来看,AI的大模型发展进入了细分化的始终,不再是全面务费用节省的方式。O1在先对问题深度理解后再进行推导的过程中展现出一定优势,比起盲目按算法和数据组合答案的AI更加深切的理解问题本质。kimi和文心一言也在尝试让AI学习思考,而不仅仅是依赖数据和算法的组合。
从实际操作角度出发,不同的AI定位和优化点使得企业可根据自身需求选择合适的AI服务。免费资源和官方工具更具成本效益,成为优先选择。面对未来,AI的思考与合理性将成为发展的关键。