小红书智创推出FireRedTTS-2:一句话克隆声音,对话合成更自然

AI快讯6秒前发布 niko
1 0

小红书智创音频技术团队近日推出下一代对话合成模型FireRedTTS-2,针对现有对话合成方案中灵活性不足、发音错误频繁、说话人切换不稳定、韵律自然度欠缺等痛点,通过核心模块迭代实现合成效果的全面提升。

核心模块升级,性能达行业领先水平

FireRedTTS-2重点优化了**离散语音编码器**与**文本转语音合成模型**两大核心组件。在多轮客观指标测试(如MOS评分、合成速度)与主观用户调研中,模型表现均处于行业第一梯队,为多说话人对话合成提供了更优解。目前,其技术报告已在arXiv发布,用户可通过专属Demo与代码链接体验。

三大核心优势,重构对话合成自然度与灵活性

FireRedTTS-2的核心竞争力在于**合成自然度**、**声音克隆能力**与**多场景适配性**:

  • **自然度突破**:模型能精准捕捉语音中的重音、情感与停顿细节,合成音频流畅度与真人对话高度接近;
  • **轻量声音克隆**:仅需提供说话人一句话的语音样本,即可模仿其音色与表达习惯,自动生成完整多说话人对话,这一功能让模型在开源对话合成领域具备强竞争力;
  • **多语言与高效性**:支持中、英、日、韩、法等多语言合成,同时采用**低帧率离散语音编码器**提升合成速度与稳定性,双Transformer模型架构进一步强化语音连贯性。

少数据定制,快速适配多元场景

FireRedTTS-2的另一大特点是**低数据依赖**——仅需少量样本即可完成声音定制,能快速适配AI播客、智能对话、虚拟主播等不同场景。相比闭源模型,它不仅能生成高质量播客音频,还支持用户自主训练个性化声音。

开源赋能,开启对话合成新想象

FireRedTTS-2的发布为AI播客、对话合成等应用提供了工业级解决方案,也为行业内外创新提供了新可能。团队表示,未来将持续优化模型:一是增加支持的说话人数量与语言种类;二是探索可控音效插入功能,满足市场对个性化语音的需求。

代码链接:https://github.com/FireRedTeam/FireRedTTS2

© 版权声明