Sesame公司发布语音合成模型CSM 3月13日,Sesame公司对外发布了其最新语音合成模型CSM,这一消息瞬间引发了业界的广泛关注。
独特的多模态学习架构CSM运用端到端基于Transformer的多模态学习架构,这一架构赋予了模型强大的能力,使其能够深入理解上下文信息,进而生成自然且饱含情感的语音,声音效果逼真,几乎与真人无异。
实时语音生成与灵活控制该模型具备实时语音生成功能,不仅可处理文本和音频输入,用户还能通过调整参数,精准控制语音的语气、语调、节奏以及情感等特性,灵活性极高。
语音自然度获高度认可CSM的语音自然度表现极为出色,甚至达到了让用户“无法分辨是人工合成还是真人”的程度。有用户通过录制视频展示了CSM几近无延迟的卓越表现,并称赞其为“体验过的最强模型”。此前,Sesame开源的小版本CSM- 1B支持多轮对话生成连贯语音,也收获了广泛好评。
语言支持现状与期待当前,CSM主要针对英语进行训练,在英语方面表现优异,不过在多语言支持上存在一定限制,暂时还不支持中文,不过大家对其未来的语言扩展充满期待。
开源成果与应用潜力Sesame表示将部分开源研究成果,这一举措让社区开发者在GitHub上热烈讨论其潜力。CSM的应用范围广泛,不仅适用于对话式AI,还有望推动教育、娱乐等领域语音交互体验的变革。业内人士分析,CSM很可能重塑AI语音助手标准,为人机对话带来更自然的交互模式。
© 版权声明
文章版权归作者所有,未经允许请勿转载。