摘要

对金融文本进行分类是一项常见的用于识别金融风险的任务。传统的金融新闻文本分类方法需要大量的已知类别文本来训练分类器,然而标注金融新闻文本标签不仅需要专业的金融背景知识,且耗时耗力。为了减少对已知类别文本的依赖,提出了一个基于半监督学习的金融文本分类算法,该算法采用有监督学习和无监督学习的一致性训练方式,以更好地利用未知类别的文本数据;针对金融领域文本引入无监督数据增强方法,即对特定任务使用特定目标的数据增强方法,以产生更有效的数据。在多个金融文本数据集上开展的实验证明,相比其他文本分类算法,提出的算法在有效性上有明显提升。