摘要

在信息时代,大量过程信息被隐藏在由自然语言写成的文档中,从中自动抽取过程模型并可视化将有助于对过程信息的查看和管理。尽管目前已经有了一些相关的研究,但不同领域的文本带来的挑战也不同。而在中国刑事案件裁判文书中,存在着以下两个挑战:(1)事件在文本中的描述未严格按照时间顺序;(2)存在大量噪声信息。尽管该特征广泛存在于不同领域的文本中,相关的研究却很少。为此,本文提出了一种具有可移植性的文本过程挖掘算法,通过结合领域知识和机器学习建立名为“事件框架”的新型数据结构,从而解决上述难点并最终自动构建业务过程模型。通过人工构建的大量过程模型与自动生成的过程模型在结构、文本相似度上的实验对比,证明该算法能有效解决上述挑战。

  • 出版日期2023
  • 单位南京大学; 计算机软件新技术国家重点实验室