OpenAI推出o3-mini:复杂推理与对话能力提升,多方面超越前代

AI快讯4天前更新 niko
7 0

今日凌晨,OpenAI发布全新推理模型o3-mini。此模型堪称OpenAI最具成本效益的推理模型,其复杂推理和对话能力实现显著提升。在科学、数学、编程等领域,o3-mini的性能表现超越前代o1模型,同时保持了o1-mini低成本和低延迟的优势,还可与联网搜索功能搭配使用。

o3-mini已在ChatGPT和API中可用,企业版访问权限将在一周内推出。值得一提的是,受DeepSeek登顶美国AppStore免费榜影响,ChatGPT首次向所有用户免费提供推理模型,用户可在ChatGPT中选择“Reason”按钮来试用o3-mini。ChatGPTPro用户可无限制访问,Plus和Team用户的速率限制从原来o1-mini的每天50条消息增加3倍到o3-mini的每天150条消息。付费用户还能选择更高智能的版本“o3-mini-high”,不过该版本生成响应所需时间更长。

o3-mini和o1模型一样,知识截止日期为2023年10月,上下文窗口为20万个token,最多可输出10万个token。它有低、中、高三个版本,供开发者针对特定用例进行优化。目前o3-mini不支持视觉功能,开发者进行视觉推理任务仍需使用o1。即日起,o3-mini在ChatCompletions API、Assistants API、BatchAPI中推出。OpenAI称相较推出GPT-4时,每个token的价格已降低95%,且保持了顶级推理能力,只是o3-mini的API定价高于DeepSeek模型。

安全方面,OpenAI发现o3-mini在具有挑战性的安全性和越狱方面明显超过GPT-4o。在不允许的内容评估、越狱评估、幻觉评估、公平性和偏见评估等多个安全评估中,o3-mini都有出色表现。外部红队测试显示,o3-mini在与o1的比较中表现相当,两者都显著优于GPT-4o。

OpenAI发布了o3-mini的37页详细报告,涵盖多方面内容。o3-mini针对科学、数学、编程推理进行优化,响应速度更快。在多项基准测试中,o3-mini的分数比肩或超过o1推理模型,在14种语言的MMLU测试集上,其表现显著优于o1-mini,展示了在多语言理解方面的进步。外部专家测试人员评估表明,o3-mini答案更准确、清晰,推理能力更强。在人类偏好评估中,测试人员在56%的时间里更喜欢o3-mini的回答,困难现实问题上重大错误减少39%。

自去年9月发布o1以来,OpenAI不断迭代推理模型,去年年底发布的o3模型是最新一代AI推理模型。高端版o3模型针对高计算应用,o3-mini则满足兼顾经济高效的用户需求,反映了OpenAI平衡可访问性和高级付费产品的策略。印度政府报告显示,OpenAI可能花费超3000万美元对o3进行基准测试。近期,软银集团与OpenAI往来密切,OpenAI正进行初步谈判,计划融资至多400亿美元,软银将领投150亿至250亿美元。

OpenAI推出的o3-mini,被视作抵御DeepSeek模型冲击的举措。在新闻稿中,OpenAI称o3-mini的发布让高质量的AI更加触手可及,致力于构建平衡智能、效率和安全性的大规模模型。

© 版权声明

相关文章

暂无评论

暂无评论...