视频语言预训练新进展:技术、应用与数据集全解析

未分类25秒前发布 niko
1 0
AiPPT - 一键生成ppt

视频语言预训练成热点:当下,伴随视频应用不断拓展,大量视频被上传至网络,如何借助视频及其对应的弱字幕开展表征学习,成为热门议题。本文聚焦大规模视频语言预训练任务,涵盖其进展、应用、基础数据集和技术。

预训练范式及代理任务:预训练和微调是深度学习常用的学习范式,在大型数据集上对模型预训练,再在小数据集上针对特定任务微调,可降低计算成本。预训练常采用自监督学习,在Imagenet等大型数据集上进行,无监督学习在NLP和CV领域也表现突出。视频语言预训练利用大规模视频文本数据开展自监督/无监督学习,获取泛化表征,主要代理任务有掩码语言模型、掩码帧模型等,旨在学习共现关联、语义限制等。

最新进展与应用领域:预训练模型进展凸显数据集大小对表征学习的重要性。研究人员利用互联网大规模、弱标记跨模态数据,推动了跨模态任务研究。如对比语言图像预训练(CLIP),基于4亿个图像-文本对数据集训练,在零样本视觉识别任务中表现优异。视频数据处理也有进展,Howto100M等大型视频数据集促进了视频语言预训练发展。Transformer模型在计算机视觉领域表现出色,视频语言预训练旨在将知识从大型数据集迁移到下游任务,包括视频文本检索、动作识别等。

开放数据集的作用:预训练数据集的规模和质量对学习鲁棒视觉表征至关重要。视频语言预训练关键数据集分为基于标签和基于字幕两类。基于标签的如Kinetics、AVA;基于字幕的有ActivityNetCaptions、YouCook2等,这些数据集为训练稳健模型提供了多样且大规模的数据。

单流与双流方法:近期视频语言预训练方法主要用Transformer作为特征提取器,分为单流和双流。单流方法有VideoBERT、HERO等;双流方法有CBT、UniVL等。这些方法在动作识别、视频字幕等应用中效果良好,单流和双流方法的选择取决于任务具体要求。

© 版权声明
Trea - 国内首个原生AI IDE