Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

AI工具1年前 (2024)更新 niko

60 0 0

OpenAI的创新技术：Voice Engine简介

OpenAI最近发布了Voice Engine，这是一款先进的人工智能（AI）语音合成和声音克隆工具。该技术能够根据短至15秒的音频样本和相应的文本输入，合成与原声高度相似的自然语音。自从2022年末该技术亮相以来，它已经成为OpenAI文本到语音API的一部分，并被集成到ChatGPT的语音功能中。Voice Engine的潜在用途广泛，包括但不限于辅助儿童和非阅读者的阅读、全球内容翻译、支持非言语交流者、恢复患者的声音等。为了确保这项技术的安全性，OpenAI制定了一系列政策和措施，如加入水印以追踪和防止声音冒充。

想了解更多关于Voice Engine的信息，请访问OpenAI官方博客。

Voice Engine的应用领域与案例分析

教育与阅读提升

Voice Engine为儿童和非阅读者提供了一种自然的语音输出工具，这有助于他们更好地接触和理解书面语言。例如，教育技术公司Age of Learning利用该技术，结合GPT-4，创造出能够实时响应并个性化的语音内容，极大提高了学习体验。

全球化内容翻译

该技术允许视频和播客等内容被转换成听众的母语，同时保留原始说话者的口音，为全球听众提供了更地道的体验。HeyGen这样的AI视觉叙事平台，使用Voice Engine进行视频翻译，成功克服了语言障碍。

改善偏远地区的服务

通过本地语言服务，Voice Engine在提供基本社区服务方面发挥了重要作用，比如带去健康咨询等。Dimagi公司正在利用这项技术开发工具，为社区卫生工作者提供互动反馈，以提高他们的服务技能。

辅助言语残障人士

对于有交流障碍的个体，Voice Engine能够提供个性化的声音，帮助他们通过增强和替代通讯设备（AAC）进行有效沟通。Livox公司正通过这项技术，为其用户提供多种语言的自然语音，增强他们的沟通能力。

患者声音恢复

Voice Engine还能够为因疾病或神经损伤失去说话能力的患者提供声音恢复的可能性。Norman Prince Neurosciences Institute正在探索利用Voice Engine帮助语言障碍患者恢复他们的声音。

Voice Engine的实际应用示例

以下是Voice Engine在音频翻译和患者声音恢复方面的两个例子：

音频翻译示例

英文原声：点击这里访问参考英文音频。
中文合成语音：点击这里试听生成的中文语音。

患者声音恢复示例

患者原声：点击这里访问患者原声音频。
参考音频：点击这里访问参考音频。
合成音频：点击这里试听生成的恢复音频。

如何开始使用Voice Engine

目前，Voice Engine并未向公众开放，尚在小规模预览中。OpenAI通过与一小部分值得信赖的合作伙伴进行测试，以深入了解该技术的潜在应用，并根据反馈决定其未来的部署策略。基于安全性和社会责任，OpenAI在推广前谨慎考虑潜在的不当使用，并制定相应的预防措施。未来，OpenAI可能会根据测试结果和市场需求，决定是否将Voice Engine开放给更广泛的用户。