基于双流网络的视频级对比学习

梁梦姿; 刘宏; 李希; 徐大宏

摘要

对比学习在自监督视频表示学习领域受到广泛关注。现有的方法大多是在片段级或帧级上进行对比学习，从而限制在长时间范围内对视频全局时空的利用。为了解决上述问题，论文提出了一种基于双流网络的视频级对比学习方法（VCTN）。该方法从网络结构和数据增强两个方面加强了对全局时空的利用。在网络结构上，论文采用卷积神经网络（CNN）和Transformer的双流架构提取视频的时间和空间特征。在数据增强上，论文提出了一种基于时间段的数据增强采样方法。该方法融合了随机、稀疏和整体采样策略，用来形成视频级的正对。大量的实验表明，论文的方法（VCTN）能学到良好的视频表示，并在下游动作分类任务上取得较高的准确率。

出版日期2023
单位湖南师范大学

收藏分享被引浏览

更新时间：2024-03-15 19:14

基于双流网络的视频级对比学习

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友