摘要

网络流量中包含的域名数据给网络流量共享带来数据隐私的挑战。现有对域名的匿名化处理方法多采用文本泛化和替换等手段,隐私性处理效果较好,但破坏了域名原有的结构和文本特性,无法满足网络安全分析场景的需求。文章提出一种面向网络安全分析的域名匿名化方法,通过基于域名结构的分层匿名处理策略和基于字符空间构造的匿名化算法,在保留网络安全分析过程中所关注的域名结构和文本属性特征的前提下对域名文本进行重构,实现既保留研究人员所需的域名数据可用性,又去除域名数据中的隐私信息的目的。为抵御穷举攻击,文章采取按参数随机重构的方式,以减少不同批次下相同域名匿名结果发生重复的概率,并基于校园网真实网络流量数据对提出的方法进行了验证。实验结果表明,文章提出的方法能够有效提升匿名化后域名数据的不可识别和不可逆的特性,并保留其在结构和语义方面的效用。