新里程碑：GPT-4o多模态大模型的革命性升级

AI快讯1年前 (2024)更新 niko

在OpenAI的春季发布会上，CTO Mira Murati向世界揭晓了ChatGPT的最新旗舰版本——GPT-4o。发布会重点展示了GPT-4o在移动端与人类交互的能力，以及其在多模态场景下的应用，如实时对话、歌唱和解题，彰显了新模型的先进性。

技术的飞跃：延迟的显著缩短

OpenAI官方指出，相较于之前版本，GPT-4o在语音模式的响应延迟上取得了革命性的进步，由GPT-3.5的2.8秒和GPT-4的5.4秒，大幅缩短至320毫秒。这一成就得益于GPT-4o的革新性神经网络，能够一体化处理文本、视觉和音频输入输出，摒弃了传统语音模式中的三模型转换方式。

性能优化：高效的人机对话体验

GPT-4o在性能和效率上的显著优化，主要归功于其改进的模型架构和训练方法。在处理复杂任务时，此模型展现出了更高的准确性和快速响应能力。OpenAI有信心，GPT-4o将开启全新的用户体验时代，尤其是在以下几个关键领域：

自然语言处理
对话系统
数据分析
编程辅助

评估结果突出：GPT-4o的成绩展示

在文本处理方面，GPT-4o在多个测试中刷新了记录。在无提示的CoT（Chain of Thought）MMLU（常识问题）测试中，GPT-4o取得了88.7%的高分，表明其即使在无提示的条件下，也能进行复杂的推理和问答。在传统的5-shot no-CoT MMLU测试中，也创下了87.2%的新高分。这些成绩通过新的评估库评估，全面提升了模型的推理能力和适用性。

实时应用场景：GPT-4o的展示

音频ASR性能：GPT-4o在自动语音识别（ASR）性能上取得了巨大进步，尤其是在资源匮乏的语言中，其表现十分卓越。
音频翻译性能：在语音翻译领域，GPT-4o树立了新的行业标准，在MLS基准测试中超过Whisper-v3，充分展示了其跨语言沟通的卓越能力。
M3Exam零样本结果：在多语言和视觉评估中，GPT-4o在所有语言的测试中均表现优异，展示了其强大的跨语言理解和处理能力。
视频理解评估：在视觉理解方面，GPT-4o在多个视觉感知基准上取得了最先进的性能，如0-shot MMMU、MathVista和ChartQA等，在无样本学习情况下依然展现出高水平的理解力。

C端市场的商业化探索

OpenAI特别关注C端市场，在人工智能领域的商业化进程中，C端市场被视为关键领域。对用户体验的重视不仅满足用户需求，而且为公司的C端市场商业化探索铺路。用户体验的优化涉及到算法提升和交互界面的友好性增加，确保了产品的流畅和自然体验。

结语

OpenAI选择在谷歌I/O大会前夕推出GPT-4o，展示了其在与科技巨头的多模态大模型竞争中的独特战略位置。这一举措不仅提升了其行业声量，增强了其市场影响力，同时也将引领AI技术向更深层次的发展。

# AI快讯

文章版权归作者所有，未经允许请勿转载。