摘要

现有加密恶意流量检测方法中,基于统计特征的方法存在特征提取依赖专家经验和特征之间相互独立的问题,基于原始输入的机器学习和深度学习方法存在信息不全、随机字段、单一粒度的问题,对加密流量交互行为的语义表征不足.为解决上述问题,本文提出一种基于多粒度表征学习的加密恶意流量检测方法 MGREL(MultiGranularity REpresentation Learning).该方法将加密会话分为字段级和包级两个粒度分别处理.在字段级粒度中,基于词向量进行局部行为建模,提取握手报文并选取关键字段,缓解信息不全导致的语义缺失问题,将字段的字节值表示为词向量,同时增加报文类型与握手类型作为位置前缀,解决位置语义缺失的问题,采用Multi-head Attention计算字段间的交互,再通过Bi LSTM得到报文级语义;在包级粒度中,基于时空进行全局行为建模,提取包的时空状态信息并采用LSTM模型得到流级语义.将两个粒度下得到的局部行为语义和全局行为语义融合,得到加密流量的表征,解决单一粒度表征能力不足的问题.最后,通过对比实验验证本文所提方法 MGREL在检测加密恶意流量方面表现最好.