摘要

本发明提供一种音视频数据处理方法、系统、电子设备及存储介质,所述音视频数据处理方法包括获取第一数据集,所述第一数据集包括若干数据对,所述第一数据集中的每个所述数据对包括相互匹配的视频帧序列单元和音频数据单元;构建多路特征提取网络模型,以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征;利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数模型,以对所述多路特征提取网络模型进行训练;构建分类器以判断输入的待判断音视频数据对是否匹配。利用本发明,能够利用互联网上广泛存在的无标签音视频数据,不依赖需要耗费大量人力物力的有标签数据,扩宽了音视频协同学习的方法。