视频语言预训练新进展：技术、应用与数据集全解析

视频语言预训练成热点：当下，伴随视频应用不断拓展，大量视频被上传至网络，如何借助视频及其对应的弱字幕开展表征学习，成为热门议题。本文聚焦大规模视频语言预训练任务，涵盖其进展、应用、基础数据集和技术。

预训练范式及代理任务：预训练和微调是深度学习常用的学习范式，在大型数据集上对模型预训练，再在小数据集上针对特定任务微调，可降低计算成本。预训练常采用自监督学习，在Imagenet等大型数据集上进行，无监督学习在NLP和CV领域也表现突出。视频语言预训练利用大规模视频文本数据开展自监督/无监督学习，获取泛化表征，主要代理任务有掩码语言模型、掩码帧模型等，旨在学习共现关联、语义限制等。

最新进展与应用领域：预训练模型进展凸显数据集大小对表征学习的重要性。研究人员利用互联网大规模、弱标记跨模态数据，推动了跨模态任务研究。如对比语言图像预训练（CLIP），基于4亿个图像-文本对数据集训练，在零样本视觉识别任务中表现优异。视频数据处理也有进展，Howto100M等大型视频数据集促进了视频语言预训练发展。Transformer模型在计算机视觉领域表现出色，视频语言预训练旨在将知识从大型数据集迁移到下游任务，包括视频文本检索、动作识别等。

开放数据集的作用：预训练数据集的规模和质量对学习鲁棒视觉表征至关重要。视频语言预训练关键数据集分为基于标签和基于字幕两类。基于标签的如Kinetics、AVA；基于字幕的有ActivityNetCaptions、YouCook2等，这些数据集为训练稳健模型提供了多样且大规模的数据。

单流与双流方法：近期视频语言预训练方法主要用Transformer作为特征提取器，分为单流和双流。单流方法有VideoBERT、HERO等；双流方法有CBT、UniVL等。这些方法在动作识别、视频字幕等应用中效果良好，单流和双流方法的选择取决于任务具体要求。

# AI快讯

文章版权归作者所有，未经允许请勿转载。