OpenAI发布GPT-4o：全面提升多模态与语音识别能力的新型旗舰AI

AI快讯2年前 (2024)更新 niko

北京时间5月14日凌晨1点，AI界又迎来了一大创新——OpenAI公司发布了GPT-4o，这是一款具有实时音频、视觉和文本推理能力的全新旗舰AI模型。此次发布会相较于去年11月的开发者大会而言十分匆忙，仅持续了26分钟。尽管首席执行官Sam Altman并未出席，但首席技术官Mira Murati及其团队带来的新模型展示仍然引起广泛关注。

GPT-4o模型概览

GPT-4o作为GPT-4系列的升级款，其名字中的“o”代表拉丁词缀“omni”，意涵包容一切、全知全能。Mira Murati在展示中提到，GPT-4o在处理速度上比前代GPT-4 Turbo快了两倍，成本降低了50%，API调用额度高了五倍。此外，她还宣布ChatGPT-4o将向所有用户免费开放。

亮点特性

多模态能力：GPT-4o支持文本、音频和图像的任意组合输入，并能输出同样的任意组合。
多语言性能：提升了50种不同语言的性能，尤其是在语音识别上。
视觉和音频理解：GPT-4o在这两方面的性能有显著进步。
速度提升：相较于GPT-4 Turbo，GPT-4o的响应时间明显缩短。

Beyond the Hype: 现实挑战与业界看法

尽管GPT-4o在多模态处理上取得了一定的进步，但业界专家和分析师对此仍有保留意见。一些评论认为，尽管模型的速度和多模态能力有所提升，但并没有实现根本的突破。此外，将推理优化和算力提升视作产品工程化的成果，而非模型能力的显著进步。

商业模式与市场反应

GPT-4o的免费开放策略赢得了用户群体，但同时，其商业模式由直接付费转变为先体验后付费的模式，这在一定程度上有助于扩大其用户基础而后才进行商业化转化。同时，GPT-4o的发布也引发了概念股的股市波动，其中苹果公司及其他在多模态AI领域的相关公司股票都出现了一定的上涨。

结语

OpenAI的GPT-4o发布无疑是AI领域的一大进步，尽管业界对其前景和目前能力存在争议，但不可否认的是，我们正处于一个AI技术不断进步的时代，而GPT-4o的成功与挑战都将为未来的AI发展提供宝贵的经验和启示。

# AI快讯

文章版权归作者所有，未经允许请勿转载。