摘要

使用预训练语言模型基于Transformer的双向编码器(bidirectional encoder representation from transformers, BERT)进行文本分类可以帮助民警快速准确地提取电子数据。针对将输入序列的起始符[CLS]位对应的隐含层表示作为句向量输入到全连接层中进行分类会产生一部分语义信息的丢失从而导致分类准确率下降的问题。提出BERT-CNN-SE模型,即在BERT后接一个语义特征提取器以充分利用高层的语义信息,利用不同大小的二维卷积核对BERT输出的隐藏状态进行卷积,然后通过共享权重的挤压和激励(squeeze-and-excitation, SE)模块对通道进行加权,最大池化层后联结起来,最后输入到全连接层进行分类。在自建的涉案对话文本数据集和公开数据集THUCNews上进行测试,改进BERT模型的准确率达到了88.58%和93.64%。结果表明,与BERT基线模型和其他分类模型相比,改进BERT模型具有更好的分类效果。