小红书智创推出FireRedTTS-2：一句话克隆声音，对话合成更自然

小红书智创音频技术团队近日推出下一代对话合成模型FireRedTTS-2，针对现有对话合成方案中灵活性不足、发音错误频繁、说话人切换不稳定、韵律自然度欠缺等痛点，通过核心模块迭代实现合成效果的全面提升。

FireRedTTS-2重点优化了**离散语音编码器**与**文本转语音合成模型**两大核心组件。在多轮客观指标测试（如MOS评分、合成速度）与主观用户调研中，模型表现均处于行业第一梯队，为多说话人对话合成提供了更优解。目前，其技术报告已在arXiv发布，用户可通过专属Demo与代码链接体验。

FireRedTTS-2的核心竞争力在于**合成自然度**、**声音克隆能力**与**多场景适配性**：

**自然度突破**：模型能精准捕捉语音中的重音、情感与停顿细节，合成音频流畅度与真人对话高度接近；
**轻量声音克隆**：仅需提供说话人一句话的语音样本，即可模仿其音色与表达习惯，自动生成完整多说话人对话，这一功能让模型在开源对话合成领域具备强竞争力；
**多语言与高效性**：支持中、英、日、韩、法等多语言合成，同时采用**低帧率离散语音编码器**提升合成速度与稳定性，双Transformer模型架构进一步强化语音连贯性。

FireRedTTS-2的另一大特点是**低数据依赖**——仅需少量样本即可完成声音定制，能快速适配AI播客、智能对话、虚拟主播等不同场景。相比闭源模型，它不仅能生成高质量播客音频，还支持用户自主训练个性化声音。

FireRedTTS-2的发布为AI播客、对话合成等应用提供了工业级解决方案，也为行业内外创新提供了新可能。团队表示，未来将持续优化模型：一是增加支持的说话人数量与语言种类；二是探索可控音效插入功能，满足市场对个性化语音的需求。

文章版权归作者所有，未经允许请勿转载。