OpenAI 发布全新旗舰模型 GPT-4o 引领语音交互新纪元

AI快讯7个月前更新 niko
32 0

美国人工智能研究公司 OpenAI 在线上召开的春季发布会上,隆重推出了全新旗舰模型 GPT-4o。这一里程碑式的事件虽然仅持续了不到半小时,却在AI界引起了巨大的轰动。GPT-4o 中的“o”代表“omni(全能)”,意味着模型在视觉和音频理解上的全面升级。它能够接收并处理文字、音频和图像的任意组合输入,并输出同样多样化的文本、音频和图像。尤其是在非英语文本上,GPT-4o 展现的显著性能提升令人瞩目。

GPT-4o 的类人交互能力尤其引人注目。在发布会现场,OpenAI的工程师与模型进行了现场互动,展示了模型对环境的适应能力和对人类行为的理解。金山云AI业务负责人于游在随后的测试中评价GPT-4o的文本到语音(TTS)功能得到了显著优化,并认为这款模型是真正意义上实现虚拟个人助理(VPA)落地的重要突破。

此外,GPT-4o 的音频响应速度达到了与人类相似的水平,平均仅0.32秒的响应时间,与使用语音模式与 GPT-3.5 对话的 2.8 秒平均延迟,及GPT-4 的 5.4 秒平均延迟相比,无疑是巨大的进步。浙江大学的陈天楚教授认为,GPT-4o 强调了语音模态能力,代表了第一个公开且具有实用价值的端到端语音对话模型。

市场对于 GPT-4o 的“类人”交互能力及其在端侧的应用潜力充满期待。新加坡 Vibranium Consulting 副总裁陈沛注意到了更新后的 ChatGPT 在响应延迟上的显著改进,认为GPT-4o 的优化展示了 OpenAI 推动大模型在手机终端落地的决心。此外,有关苹果公司即将在 iOS 18 中集成 ChatGPT 的报道更是激发了外界的广泛猜测。

随着 2024 年苹果全球开发者大会(WWDC 2024)的临近,外界对于苹果在智能手机领域的动向给予了极大的关注。业内猜测,iOS 系统与 OpenAI 的集成可能涉及语音助手 Siri 的更新、更智能的设备相机或屏幕功能集成,以及与系统级和智能家居操作 API 的深度融合。

讨论中,于游提出,OpenAI 的 GPT-4o 模型不仅展示了图文、语音、视觉交互的集中能力,更为未来应用层面的发展提供了广阔的想象空间。随着人机智能交互方式的变化,新的交互逻辑可能推动硬件和软件两端产生新的载体,以更好地响应人类对强人工智能的需求。

© 版权声明

相关文章

暂无评论

暂无评论...