摘要

精确有效的网络流量分类技术对提高网络服务质量、优化网络带宽分配、加强网络安全管理以及网络相关研究具有重要意义。目前,网络流量分类技术主要按照应用类型或者协议类型对网络流量分类,不能够对未知流量和加密流量进行分析和识别。因此提出一种基于n-gram多特征的流量载荷类型分类方法来实现对网络数据包中传输内容的类型的识别,即将流量按照其载荷类型分为文本、音频、视频、图片、可执行文件、压缩加密七类。首先利用阈值筛选出高频连续子串集合,进而在该集合上提取多样化的特征来刻画连续子串的频数分布,最后基于C 4.5决策树对流量载荷类型进行准确分类。实验验证表明,在仅使用每条流1 KB数据的情况下,分类载荷类型的平均准确率和平均召回率分别达到了92.7%和91.9%,与基于熵值的分类方法相比,平均准确率和平均召回率分别提高近10.8%和12.1%。

  • 出版日期2017
  • 单位中国科学院大学; 中国科学院信息工程研究所; 国家计算机网络应急技术处理协调中心