AI语音爆发:从声音可编程到人机共情交互

AI快讯2天前发布 niko
4 0
AiPPT - 一键生成ppt

过去半年,AI语音赛道热度飙升,大额融资纷纷投向早期团队。如AI语音应用WisprFlow靠“默念输入”完成3000万美元A轮融资,语音模型公司Cartesia获6400万美元A轮融资,AI语音合成公司ElEVEnLabs完成1.8亿美元C轮融资。科技巨头与创业公司也密集发布语音模型与产品,Siri或被chatgpt等接管。

声音可编程化推动AI语音爆发。声智副总裁黄赟贺认为,语音对话成为AI时代入口,得益于大模型加持。大模型让声音实现“可编程化”,此前声音仅为“输入”或“输出”介质,内部信息难被软件编程理解。传统语音识别多将声音转文字处理,而大模型能更快更准打标签,解决功能开发的高成本和长周期问题。依靠大模型对多模态数据的深度理解,声音携带的更多信息被AI系统直接捕捉、理解和编程,声音成为真正的交互引擎。

真正的语音交互是对“声学场景”的感知。很多人以为语音交互是“Voice”,实则核心是“Sound”,它包含语调、音色、节奏、情绪及环境音等更丰富元素。AI系统需全面感知和理解“声学场景”中的关键元素,才能真正理解用户深层需求,提供精准、个性化、有情感的交互。

语音交互面临声学“卡点”。尽管大模型提升了“听懂”和“会说”的能力,但“听清”这一基础环节受物理层面制约。如具身智能的机器人存在电路噪声、关节噪声等问题,声音穿透衰减大,导致听不清指令。解决这些问题需在声学层面突破,抑制环境噪声、电路底噪、啸叫、混响回响等,但这不仅是技术问题,更需时间采集声音和训练。

人机交互走向“共情模式”。当前很多AI应用日活和留存不高,原因在于文字问答有门槛。语音开启了人机交互的“共情模式”,其构成要素包括情绪识别、意图理解、声纹识别和情绪生成。从“Voice”拓展到“Sound”,可构建“声学世界模型”,该模型具备“声学常识”和“声学推理”能力。未来,声学世界模型与视觉、语言大模型深度融合,具身智能机器人将不再“失聪”和冰冷。

© 版权声明
Trea - 国内首个原生AI IDE