摘要

本发明公开了一种基于跨度信息和局部注意力的试卷结构解析方法,包括以下步骤:获取电子化试卷,预处理电子化试卷中的多元数据为统一的分行结构性文本;首先通过大规模预训练模型提取试卷每一行的语义特征,并利用建模行上下文的信息;之后利用基于跨度信息的监督注意力以及一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其对应的类型;进一步的分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果。本发明采用了先解析大题后拆分小题的两阶段方法,有效的兼顾了试卷解析的效率以及降低了模型的训练难度提升试题解析的准确率。