摘要

文本分类是自然语言处理的一个重要领域,随着深度网络的发展,大规模预训练模型日渐成为文本分类任务的主流模型,但大模型的推理速度慢、尺寸大难以在计算资源有限的设备应用,而且大模型多存在参数冗余问题。为了在不损失过多性能的情况下尽可能地预训练大模型进行模型压缩,本文提出了一种更小更快的BERT类模型SmBERT。该模型由原生BERT首先经过二次自蒸馏,纵向实现二倍压缩率;其次,经过多学习目标的知识蒸馏,多维度迁移大模型的语言知识,从而丰富目标模型的语言理解能力;最后,使用面向跨语言任务的剪枝,从隐层和注意力头方向实现模型的宽度剪枝,最终得到SmBERT。通过测试,在QQP、QNLI、SST-2、MRPC和RTE数据集上,只有BERT的35%参数量的SmBERT表现了其94%的综合性能,并在小数据集RTE上超越了BERT模型,推理速度提升了6.1倍。