CoGenAV 是Tongyi Foundation Model推出的一项创新成果,它以音频视觉同步的全新概念,对传统语音识别技术进行了革新,成功解决了语音识别中噪声干扰这一难题。
- 传统语音识别在嘈杂环境中表现不佳,而CoGenAV通过学习音频、视觉和文本信息之间的时间对齐关系,构建了一个更强大、更具通用性的语音表征框架,系统地提升了多个以语音为中心的任务性能,如语音识别、视听语音合成和视听同步等。
- 在技术实现上,CoGenAV 采用了对比生成同步策略 。在特征提取时,模型运用ResNet3D CNN分析视频中说话者的唇动 ,捕捉声音与口型之间的动态关联;同时使用Transformer编码器从音频中提取语音信息,并精确对齐视听特征。通过对比同步和生成同步两种方式,提高了模型的理解能力。其中,对比同步利用Seq2Seq对比学习增强音频和视频特征之间的对应关系,引入ReLU激活函数过滤干扰帧;生成同步则使用预训练的ASR模型将视听特征与其声学文本表征对齐,并设计了轻量级适配器模块,提高了跨模态融合效率 。
- 凭借这些创新技术,CoGenAV 在多个基准数据集上取得了突破性成果。在视觉语音识别任务中,仅使用223小时的唇动视频训练,就能达到与使用数千小时数据的传统模型相当的效果;在视听语音识别任务中,结合Whisper Medium模型,创造了新的最优记录,在0dB噪声环境下性能提升超过80%,显著优于纯音频模型。在语音增强和分离任务以及主动说话者检测任务中,CoGenAV 也表现出色,领先于现有方法。
- CoGenAV 具有出色的实用性和可扩展性,它可以直接集成到主流语音识别模型中,无需修改或微调即可实现视觉语音识别,大大降低了部署门槛。其优秀的抗噪性和数据效率,节省了大量的训练成本。目前,CoGenAV 的相关代码和模型已在GitHub、arXiv、HuggingFace和ModelScope等平台开源 ,供研究人员和开发者使用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。