摘要

法律文件数量的快速增长与人工智能的飞速发展,推动了法律领域中机器阅读理解的发展,如罪名预测、证据预测、法律条文推荐等。证据预测是其中一个关键应用,支持问答系统,即在预测答案的同时进行证据预测,预测出的证据用来辅助推断答案。当前法律文书通常包含20句以上的语句,其中可作为直接支撑答案的证据不多,一般不超过3句。证据预测需要从文书的大量语句中寻找和答案相关的证据,难度较大,其过多的样本数据会使不相关语句对预测结果产生干扰。为了过滤法律文书中众多和答案证据不相关的语句,提出了面向法律文书基于语句选择的证据预测方法,使用紧密连接的编码器堆栈作为基础模型,综合考虑问题、语句及答案,提高证据预测准确率,设计了一种计算不同语句的二进制交叉熵以获取不同语句间交互相关信息。在目前公开的最大规模的中文法律阅读理解数据集CJRC2020中进行大量实验和研究,验证了方法的有效性。该方法的Joint F1分数达到了70.07%,优于主流的模型。