摘要

针对基于机器学习算法识别恶意网页时恶意网页样本收集困难的问题,提出了一种基于生成对抗网络(GAN)的扩展恶意网页样本数据集的方法(WS-GAN),使用少量的原始样本数据训练生成对抗网络,利用生成器模拟生成网页样本。同时在原有生成对抗网络的结构中加入了多个判别器:全局判别器判别整体样本的真伪,控制生成样本整体的质量;各特征判别器判别其对应类别特征数据的真伪,控制生成样本细节部分的质量。实验结果表明,WS-GAN生成的网页特征样本可用于恶意网页分类器的训练,并且其生成样本的质量优于条件生成对抗网络和条件变分自编码器生成样本的质量。