Sesame团队推新:以对话语音模型打造具情感的数字伴侣

AI快讯4小时前发布 niko
4 0
AiPPT - 一键生成ppt

Sesame团队发力语音助手革新。当下的数字语音助手在与用户互动时,缺乏情感与人性化特质。Sesame团队聚焦于此,全力打造“语音存在”理念,期望数字助手能成为真正可交流的伙伴。

构建数字伴侣的关键要素。该团队旨在创造的数字伴侣,绝非简单处理请求的工具。为此,他们着重于情感智能、对话动态、上下文意识和一致的人格特征。情感智能让语音助手能感知用户情感变化;对话动态确保交流节奏自然;上下文意识使其依情境调整风格;一致的人格特征增强用户信任感。

技术创新:对话语音模型(CSM)。针对传统文本到语音(TTS)模型的缺陷,Sesame团队提出“对话语音模型”(CSM)。此方法借助转换器架构,实现更自然连贯的语音生成,解决传统模型上下文理解的短板,兼顾多模态学习与对话历史调整输出。

模型训练与成果展示。团队利用大量公开音频数据训练模型,在客观和主观评估指标上成绩良好。虽模型在自然度和语音适应性接近人类水平,但在具体对话情境仍有提升空间。官方样本生成作品极具真实感。

开源计划与未来展望。Sesame团队计划开源研究成果,吸引社区参与改进。这不仅加速对话AI发展,还将扩展模型规模和语言支持,探索利用预训练语言模型构建多模态模型。

© 版权声明
智谱清言 - 国产最强AI模型