OpenAI 发布全新旗舰模型 GPT-4o 引领语音交互新纪元

AI快讯1年前 (2024)更新 niko

美国人工智能研究公司 OpenAI 在线上召开的春季发布会上，隆重推出了全新旗舰模型 GPT-4o。这一里程碑式的事件虽然仅持续了不到半小时，却在AI界引起了巨大的轰动。GPT-4o 中的“o”代表“omni（全能）”，意味着模型在视觉和音频理解上的全面升级。它能够接收并处理文字、音频和图像的任意组合输入，并输出同样多样化的文本、音频和图像。尤其是在非英语文本上，GPT-4o 展现的显著性能提升令人瞩目。

GPT-4o 的类人交互能力尤其引人注目。在发布会现场，OpenAI的工程师与模型进行了现场互动，展示了模型对环境的适应能力和对人类行为的理解。金山云AI业务负责人于游在随后的测试中评价GPT-4o的文本到语音（TTS）功能得到了显著优化，并认为这款模型是真正意义上实现虚拟个人助理（VPA）落地的重要突破。

此外，GPT-4o 的音频响应速度达到了与人类相似的水平，平均仅0.32秒的响应时间，与使用语音模式与 GPT-3.5 对话的 2.8 秒平均延迟，及GPT-4 的 5.4 秒平均延迟相比，无疑是巨大的进步。浙江大学的陈天楚教授认为，GPT-4o 强调了语音模态能力，代表了第一个公开且具有实用价值的端到端语音对话模型。

市场对于 GPT-4o 的“类人”交互能力及其在端侧的应用潜力充满期待。新加坡 Vibranium Consulting 副总裁陈沛注意到了更新后的 ChatGPT 在响应延迟上的显著改进，认为GPT-4o 的优化展示了 OpenAI 推动大模型在手机终端落地的决心。此外，有关苹果公司即将在 iOS 18 中集成 ChatGPT 的报道更是激发了外界的广泛猜测。

随着 2024 年苹果全球开发者大会（WWDC 2024）的临近，外界对于苹果在智能手机领域的动向给予了极大的关注。业内猜测，iOS 系统与 OpenAI 的集成可能涉及语音助手 Siri 的更新、更智能的设备相机或屏幕功能集成，以及与系统级和智能家居操作 API 的深度融合。

讨论中，于游提出，OpenAI 的 GPT-4o 模型不仅展示了图文、语音、视觉交互的集中能力，更为未来应用层面的发展提供了广阔的想象空间。随着人机智能交互方式的变化，新的交互逻辑可能推动硬件和软件两端产生新的载体，以更好地响应人类对强人工智能的需求。

# AI快讯

文章版权归作者所有，未经允许请勿转载。