摘要

对比学习在自监督视频表示学习领域受到广泛关注。现有的方法大多是在片段级或帧级上进行对比学习,从而限制在长时间范围内对视频全局时空的利用。为了解决上述问题,论文提出了一种基于双流网络的视频级对比学习方法(VCTN)。该方法从网络结构和数据增强两个方面加强了对全局时空的利用。在网络结构上,论文采用卷积神经网络(CNN)和Transformer的双流架构提取视频的时间和空间特征。在数据增强上,论文提出了一种基于时间段的数据增强采样方法。该方法融合了随机、稀疏和整体采样策略,用来形成视频级的正对。大量的实验表明,论文的方法(VCTN)能学到良好的视频表示,并在下游动作分类任务上取得较高的准确率。