OpenAI发布新一代音频模型,助力语音交互升级
OpenAI近日在其APi中推出了全新一代音频模型,为开发者构建强大的语音Agent提供了有力支持。这一系列模型涵盖语音转文本和文本转语音功能,具备众多创新亮点。
语音转文本模型的卓越表现
在语音转文本方面,新推出的GPT-4o-transcribe模型表现出色。该模型经多样化、高质量音频数据集长时间训练,能精准捕获语音细微差别,有效减少误识别,大幅提升转录可靠性。在多个基准测试中,其单词错误率显著降低,超越了现有的Whisper模型。尤其在处理口音多样、环境嘈杂、语速变化等复杂场景时,如客户呼叫中心、会议记录转录等领域,优势明显。
gpt-4o-mini-transcribe则是gpt-4o-transcribe的精简版本,基于GPT-4o-mini架构,通过知识蒸馏技术转移大模型能力。尽管其WER稍高于完整版模型,但仍优于原有Whisper模型,更适合资源有限但对语音识别质量有要求的应用场景。这两款模型在FLEURS多语言基准测试中表现突出,在英语、西班牙语等多种语言上超越了Whisperv2和v3模型。
文本转语音模型的创新特性
OpenAI发布的gpt-4o-mini-tts文本转语音模型,首次支持“可引导性”,开发者不仅能指定“说什么”,还能控制“如何说”。开发者可预设多种语音风格,如“平静”“冲浪者”“专业的”“中世纪骑士”等,并能根据指令调整语音风格。该模型定价亲民,每分钟仅0.015美元,且将接受持续监控,以确保输出与预设合成风格一致。
技术创新背后的支撑
这些技术进步源于OpenAI的多项创新。新音频模型基于GPT-4o和GPT-4o-mini架构,采用真实音频数据集预训练;应用self-play方法创建蒸馏数据集的知识蒸馏方法,实现大模型到小模型的知识转移;在语音转文本技术中融入强化学习,显著提升转录精度并减少“幻觉”现象。
语音Agent的构建路径与增强功能
OpenAI演示人员介绍了两种构建语音Agent的技术路径。第一种“语音到语音模型”采用端到端直接处理方式,系统可直接接收用户语音输入并生成语音回复,处理速度快,适用于对响应速度要求高的场景。第二种“链式方法”将处理流程分解为三个环节,具有模块化设计、处理结果稳定、开发门槛低等优势。
此外,OpenAI还为语音交互系统提供了多项增强功能,包括支持语音流式处理、内置噪音消除功能、语义语音活动检测以及提供追踪UI工具等。
模型开放与相关活动
目前,这些全新音频模型已向全球开发者开放。开发者可在http://OpenAI.fm上体验并制作gpt-4o-mini-tts的相关音频。OpenAI还推出与Agents SDK的集成,简化开发流程,并举办广播比赛,鼓励用户发挥创意。
AI情感化趋势下的语音领域发展
今年AI风向发生变化,除强调智商外,更注重情感。语音领域在这方面发力显著,OpenAI发布的全新语音模型以及即将发布的Meta LLaMA4都试图通过更自然的情感交互拉近与用户的距离,为用户带来更具“人味”的体验。