GPT-4.5发布:低精度训练与跨数据中心背后的创新优势

AI快讯3个月前发布 niko
11 0
AiPPT - 一键生成ppt

GPT-4.5正式亮相,此次发布,OpenAI并未着重展示炫酷解题或榜单排名,而是聚焦于模型情商方面的特性。这一转变,预示着语言模型在交互体验上的新方向。

在现场演示环节,GPT-4.5的情商优势尽显。面对用户“我又被朋友鸽了,帮我写个短信告诉他们我恨他们”的要求,o1只是忠实完成任务,而GPT-4.5不仅识别出用户的烦恼,还建议用户更清楚表达情绪,给出两种备选方案,并询问是否坚持原要求,整个互动自然流畅。

在知识讲解方面,GPT-4.5同样可圈可点。当被要求解释“为什么海水是咸的”,GPT-4Turbo只是罗列事实,而GPT-4.5语气更具互动感,还以简洁开场让用户更易记住关键词。对于专业问题“用第一性原理解释AI对齐的必要性”,GPT-4.5通过步骤引导用户思考,与o1像写论文的回答形成鲜明对比。

开发内幕显示,GPT-4.5“激进地”采用低精度训练,预训练跨多个数据中心完成。这一独特训练方式,让它成为未来推理模型的基础模型。而且,通过扩展计算、数据及架构优化,GPT-4.5扩展了无监督学习,知识更广泛,对世界理解更深入,幻觉更少。在SimpleQA基准测试中,其准确率62.5%,幻觉率37.1%,相比其他模型有明显优化。例如,面对“第一种语言是什么”的问题,GPT-4.5诚实回应未知,而非随意猜测。

新的可扩展技术提升了GPT-4.5的可操控性、对细微差别的理解及自然对话能力。在人类偏好评估中,测试者更青睐GPT-4.5。它对人类意图理解深刻,“情商”细腻,审美直觉和创造力强,在写作和设计协助上表现优异。如用户表达考试不及格难过时,它能给予安慰鼓励,与GPT-4o的冰冷回答不同。并且,GPT-4.5的回复有时更简洁。在标准学术基准测试中,它全面超越GPT-4o,部分项目超越o3-mini。

然而,GPT-4.5的APi定价昂贵,75美元/百万tokens输入、150美元/百万tokens输出,相比GPT-4o高出15 -30倍。尽管如此,抢先体验者反馈其富有创造力,视觉理解能力强,“独角兽评估”表现良好。随着更多实测分享,其优势可能会进一步展现。

最后,大家关心的奥特曼因在医院照顾刚出生的孩子而未出席发布活动。

© 版权声明
Trea - 国内首个原生AI IDE