AI语音爆发：从声音可编程到人机共情交互

过去半年，AI语音赛道热度飙升，大额融资纷纷投向早期团队。如AI语音应用WisprFlow靠“默念输入”完成3000万美元A轮融资，语音模型公司Cartesia获6400万美元A轮融资，AI语音合成公司El EVEnLabs完成1.8亿美元C轮融资。科技巨头与创业公司也密集发布语音模型与产品，Siri或被 chatgpt等接管。

声音可编程化推动AI语音爆发。声智副总裁黄赟贺认为，语音对话成为AI时代入口，得益于大模型加持。大模型让声音实现“可编程化”，此前声音仅为“输入”或“输出”介质，内部信息难被软件编程理解。传统语音识别多将声音转文字处理，而大模型能更快更准打标签，解决功能开发的高成本和长周期问题。依靠大模型对多模态数据的深度理解，声音携带的更多信息被AI系统直接捕捉、理解和编程，声音成为真正的交互引擎。

真正的语音交互是对“声学场景”的感知。很多人以为语音交互是“Voice”，实则核心是“Sound”，它包含语调、音色、节奏、情绪及环境音等更丰富元素。AI系统需全面感知和理解“声学场景”中的关键元素，才能真正理解用户深层需求，提供精准、个性化、有情感的交互。

语音交互面临声学“卡点”。尽管大模型提升了“听懂”和“会说”的能力，但“听清”这一基础环节受物理层面制约。如具身智能的机器人存在电路噪声、关节噪声等问题，声音穿透衰减大，导致听不清指令。解决这些问题需在声学层面突破，抑制环境噪声、电路底噪、啸叫、混响回响等，但这不仅是技术问题，更需时间采集声音和训练。

人机交互走向“共情模式”。当前很多AI应用日活和留存不高，原因在于文字问答有门槛。语音开启了人机交互的“共情模式”，其构成要素包括情绪识别、意图理解、声纹识别和情绪生成。从“Voice”拓展到“Sound”，可构建“声学世界模型”，该模型具备“声学常识”和“声学推理”能力。未来，声学世界模型与视觉、语言大模型深度融合，具身智能机器人将不再“失聪”和冰冷。

# AI快讯

文章版权归作者所有，未经允许请勿转载。