语音交互成AI竞争新焦点 近期,字节跳动旗下火山引擎发布豆包·同声传译模型Seed LiveInterpret2.0,同一日阿里通义千问团队也发布翻译模型Qwen -MT。这一事件反映出AI厂商对语音模型赛道的高度重视,背后实则是对新一代“语义交互”方式的激烈竞争。
字节语音布局脉络清晰 回顾字节的语音发展历程,2024年推出旗舰语音生成基础模型Seed -TTS,今年1月发布首个端到端语音理解与生成模型,4月开源中英双语TTS模型MegaTTS3,1个月前又发布豆包播客语音模型。此次同声传译模型的推出,补足了其语音能力版图。
豆包·同声传译模型2.0实力解析该模型在多个Benchmark测试中领先。它能以低延迟、丝滑效果输出与用户音色一致的英语翻译,实现“实时语音+实时翻译+实时输出”。不过,在不同语言方向上音色克隆表现有差异,特定领域专业词汇翻译准确度也有待提升。
多厂商角逐语音赛道 除字节外,阿里曾推出端到端语音翻译大模型Gummy,“AI六小龙”之一的MiniMax发布MiniMax -SPeech系列模型,OpenAI、Grok等也纷纷布局语音领域。各厂商在语音交互方面各有特色和优势。
语音交互推动AI硬件发展业界已形成实时语音在AI产品商业化中价值的共识。新一代AI硬件浪潮对语音翻译技术需求强烈,如阿里推出AI眼镜,字节也将发布相关产品。语音交互能带来更好体验,成为AI硬件吸引用户的新战场。
语音市场潜力初现字节豆包同传模型发布并将接入硬件,以及此前打造的播客模型等,都表明国内“语音”市场潜力巨大。语音交互很可能成为改变人机交互方式的关键技术。
© 版权声明
文章版权归作者所有,未经允许请勿转载。