摘要

基于编码器-解码器架构的序列到序列学习模型是近年来主流的生成式自动文摘模型,其在计算每一个词的隐层表示时,通常仅考虑该词之前(或之后)的一些词,无法获取全局信息,从而进行全局优化.针对这个问题,在编码器端引入全局自匹配机制进行全局优化,并利用全局门控单元抽取出文本的核心内容.全局自匹配机制根据文本中每个单词语义和文本整体语义的匹配程度,动态地从整篇文本中为文中每一个词收集与该词相关的信息,并进一步将该词及其匹配的信息有效编码到最终的隐层表示中,以获得包含全局信息的隐层表示.同时,考虑到为每一个词融入全局信息可能会造成冗余,引入了全局门控单元,根据自匹配层获得的全局信息对流入解码端的信息流进行过滤,筛选出原文本的核心内容.实验结果显示,与目前主流的生成式文摘方法相比,该方法在Rouge评价上有显著提高,这表明所提出的模型能有效融合全局信息,挖掘出原文本的核心内容.

全文