GPT-4o揭秘：OpenAI的全能AI带来的新体验

AI快讯1年前 (2024)更新 niko

重磅发布：GPT-4o的全能体验

最近，OpenAI的旗舰模型GPT-4o亮相，这一全新的AI模型不仅免费向公众开放，还带来了令人震惊的能力。它能够感知到用户的呼吸节奏，用更丰富的语气实时回复，甚至支持用户随时打断对话，展现出前所未有的流畅度和接近人类反应速度的表现。GPT-4o的“o”代表Omni，寓意其全能的特性，能够同时处理文本、音频和图像的输入，并且生成相应的输出内容。

在一项展示中，GPT-4o表现出了232毫秒至320毫秒的响应时间，与人类在对话中的反应速度相当。更令人兴奋的是，这一模型将向所有用户免费开放，与ChatGPT Plus会员版一同提供包括视觉、联网、记忆、执行代码等所有功能。

应用展望：GPT-4o的无限可能

GPT-4o的演示现场，CTO Murati表示，GPT-4o的开放是一个重大的里程碑。尽管GPT-4o在公开测试中超过了GPT-4-Turbo级别，但研究员William Fedus透露，GPT-4o实际上只是之前大模型竞技场中的测试模型之一。这一模型的推出，预示着在API层面上，用户将享受到五折的价格和翻倍的速度，单位时间调用次数更是提升了五倍。

网友们已经开始设想GPT-4o的可能应用场景，比如辅助视障人士或作为先进的翻译工具，它都展现了巨大的潜力。

实时演示：Brockman的在线展示

在Google I/O发布会前一天，OpenAI进行了一场发布会，其中总裁Brockman展示了GPT-4o的实时翻译能力。GPT-4o不仅能够顺畅地在两种语言之间进行转换，还能在两个AI之间进行对话，甚至共同完成一首歌，展示了其戏剧性的一面。Brockman的演示中还包括了一项“特技”，由一个新AI角色小N展示了其视觉能力，通过对话和视觉互动，两人建立了一种新的互动方式。

技术揭秘：GPT-4o的训练与能力

对于GPT-4o如何实现这样的表现，OpenAI并未提供详细的技术报告。然而，在官网的官方博文中，我们可以了解到GPT-4o是端到端训练的新模型，所有的输入和输出都由同一个神经网络处理。这意味着它在语音翻译任务上的表现超过了专门设计的Whisper-V3以及其他知名品牌的语音模型。

期待更多：OpenAI的未来动态

除了GPT-4o的发布，OpenAI的动向同样备受期待。随着I/O大会的临近，是否还会有更多的惊喜也成为人们讨论的焦点。有关OpenAI的最新动态，我们将继续跟踪报道。

# AI快讯

文章版权归作者所有，未经允许请勿转载。