OpenAI全新音频模型：语音转文本与文本转语音的创新突破

OpenAI发布新一代音频模型，助力语音交互升级

OpenAI近日在其APi中推出了全新一代音频模型，为开发者构建强大的语音Agent提供了有力支持。这一系列模型涵盖语音转文本和文本转语音功能，具备众多创新亮点。

语音转文本模型的卓越表现

在语音转文本方面，新推出的 GPT-4o-transcribe模型表现出色。该模型经多样化、高质量音频数据集长时间训练，能精准捕获语音细微差别，有效减少误识别，大幅提升转录可靠性。在多个基准测试中，其单词错误率显著降低，超越了现有的Whisper模型。尤其在处理口音多样、环境嘈杂、语速变化等复杂场景时，如客户呼叫中心、会议记录转录等领域，优势明显。

gpt-4o-mini-transcribe则是gpt-4o-transcribe的精简版本，基于GPT-4o-mini架构，通过知识蒸馏技术转移大模型能力。尽管其WER稍高于完整版模型，但仍优于原有Whisper模型，更适合资源有限但对语音识别质量有要求的应用场景。这两款模型在FLEURS多语言基准测试中表现突出，在英语、西班牙语等多种语言上超越了Whisperv2和v3模型。

文本转语音模型的创新特性

OpenAI发布的gpt-4o-mini-tts文本转语音模型，首次支持“可引导性”，开发者不仅能指定“说什么”，还能控制“如何说”。开发者可预设多种语音风格，如“平静”“冲浪者”“专业的”“中世纪骑士”等，并能根据指令调整语音风格。该模型定价亲民，每分钟仅0.015美元，且将接受持续监控，以确保输出与预设合成风格一致。

技术创新背后的支撑

这些技术进步源于OpenAI的多项创新。新音频模型基于GPT-4o和GPT-4o-mini架构，采用真实音频数据集预训练；应用self-play方法创建蒸馏数据集的知识蒸馏方法，实现大模型到小模型的知识转移；在语音转文本技术中融入强化学习，显著提升转录精度并减少“幻觉”现象。

语音Agent的构建路径与增强功能

OpenAI演示人员介绍了两种构建语音Agent的技术路径。第一种“语音到语音模型”采用端到端直接处理方式，系统可直接接收用户语音输入并生成语音回复，处理速度快，适用于对响应速度要求高的场景。第二种“链式方法”将处理流程分解为三个环节，具有模块化设计、处理结果稳定、开发门槛低等优势。

此外，OpenAI还为语音交互系统提供了多项增强功能，包括支持语音流式处理、内置噪音消除功能、语义语音活动检测以及提供追踪UI工具等。

模型开放与相关活动

目前，这些全新音频模型已向全球开发者开放。开发者可在http://OpenAI.fm上体验并制作gpt-4o-mini-tts的相关音频。OpenAI还推出与Agents SDK的集成，简化开发流程，并举办广播比赛，鼓励用户发挥创意。

AI情感化趋势下的语音领域发展

今年AI风向发生变化，除强调智商外，更注重情感。语音领域在这方面发力显著，OpenAI发布的全新语音模型以及即将发布的Meta LLaMA4都试图通过更自然的情感交互拉近与用户的距离，为用户带来更具“人味”的体验。

# AI快讯

文章版权归作者所有，未经允许请勿转载。