摘要

针对深度卷积生成式对抗网络模型(DCGAN)高维文本输入表示的稀疏性导致以文本为条件生成的图像结构缺失和图像不真实的问题,提出了一种改进深度卷积生成对抗网络模型(CA-DCGAN)。首先,采用深度卷积网络和循环文本编码器对输入的文本进行编码得到文本的特征向量表示。其次,在文本特征向量表示后引入一个条件增强模型(CA),通过文本特征向量的均值和协方差矩阵产生一个附加的条件变量代替原来的高维文本特征向量。最后,将条件变量与随机噪声结合作为生成器的输入,与此同时,在生成器的损失中额外加入KL损失正则化项,避免模型训练过拟合,使模型可以更好的收敛,判别器中使用谱约束层(SN)防止判别器梯度下降太快造成生成器与判别器不平衡的训练而发生模式崩溃的问题。实验验证结果表明,论文提出的方法在Oxford-102-flowers和CUB-200数据集上生成的图像质量较alignGAN、GAN-CLS、GAN-INT-CLS、StackGAN(64×64)、StackGAN-v1(64×64)模型更好且接近于真实样本,Inception Score值最低分别提高了10.9%和5.6%,最高分别提高了41.4%和37.5%,FID值最低分别降低了11.4%和8.4%,最高分别降低了43.9%和42.5%,进一步表明论文提出方法的有效性。