Sesame推出语音合成模型CSM 带来自然人机对话新体验

AI快讯1年前 (2025)发布 niko

Sesame公司发布语音合成模型CSM 3月13日，Sesame公司对外发布了其最新语音合成模型CSM，这一消息瞬间引发了业界的广泛关注。

独特的多模态学习架构CSM运用端到端基于Transformer的多模态学习架构，这一架构赋予了模型强大的能力，使其能够深入理解上下文信息，进而生成自然且饱含情感的语音，声音效果逼真，几乎与真人无异。

实时语音生成与灵活控制该模型具备实时语音生成功能，不仅可处理文本和音频输入，用户还能通过调整参数，精准控制语音的语气、语调、节奏以及情感等特性，灵活性极高。

语音自然度获高度认可CSM的语音自然度表现极为出色，甚至达到了让用户“无法分辨是人工合成还是真人”的程度。有用户通过录制视频展示了CSM几近无延迟的卓越表现，并称赞其为“体验过的最强模型”。此前，Sesame开源的小版本CSM- 1B支持多轮对话生成连贯语音，也收获了广泛好评。

语言支持现状与期待当前，CSM主要针对英语进行训练，在英语方面表现优异，不过在多语言支持上存在一定限制，暂时还不支持中文，不过大家对其未来的语言扩展充满期待。

开源成果与应用潜力Sesame表示将部分开源研究成果，这一举措让社区开发者在GitHub上热烈讨论其潜力。CSM的应用范围广泛，不仅适用于对话式AI，还有望推动教育、娱乐等领域语音交互体验的变革。业内人士分析，CSM很可能重塑AI语音助手标准，为人机对话带来更自然的交互模式。

文章版权归作者所有，未经允许请勿转载。