CoGenAV革新语音识别：音频视觉同步应对噪声干扰

AI快讯9个月前发布 niko

274 0 0

CoGenAV 是Tongyi Foundation Model推出的一项创新成果，它以音频视觉同步的全新概念，对传统语音识别技术进行了革新，成功解决了语音识别中噪声干扰这一难题。

传统语音识别在嘈杂环境中表现不佳，而CoGenAV通过学习音频、视觉和文本信息之间的时间对齐关系，构建了一个更强大、更具通用性的语音表征框架，系统地提升了多个以语音为中心的任务性能，如语音识别、视听语音合成和视听同步等。
在技术实现上，CoGenAV 采用了对比生成同步策略 。在特征提取时，模型运用ResNet3D CNN分析视频中说话者的唇动，捕捉声音与口型之间的动态关联；同时使用Transformer编码器从音频中提取语音信息，并精确对齐视听特征。通过对比同步和生成同步两种方式，提高了模型的理解能力。其中，对比同步利用Seq2Seq对比学习增强音频和视频特征之间的对应关系，引入ReLU激活函数过滤干扰帧；生成同步则使用预训练的ASR模型将视听特征与其声学文本表征对齐，并设计了轻量级适配器模块，提高了跨模态融合效率 。
凭借这些创新技术，CoGenAV 在多个基准数据集上取得了突破性成果。在视觉语音识别任务中，仅使用223小时的唇动视频训练，就能达到与使用数千小时数据的传统模型相当的效果；在视听语音识别任务中，结合Whisper Medium模型，创造了新的最优记录，在0dB噪声环境下性能提升超过80%，显著优于纯音频模型。在语音增强和分离任务以及主动说话者检测任务中，CoGenAV 也表现出色，领先于现有方法。
CoGenAV 具有出色的实用性和可扩展性，它可以直接集成到主流语音识别模型中，无需修改或微调即可实现视觉语音识别，大大降低了部署门槛。其优秀的抗噪性和数据效率，节省了大量的训练成本。目前，CoGenAV 的相关代码和模型已在GitHub、arXiv、HuggingFace和ModelScope等平台开源，供研究人员和开发者使用。

# AI快讯

文章版权归作者所有，未经允许请勿转载。