基于文本及历史数据的多标签专利分类算法研究

徐雪洁; 王宝会<sup>*</sup>

摘要

专利分类是专利数据挖掘领域的一个非常重要的任务，该任务的目标是为给定专利文献分配若干个国际专利分类（IPC）号，近几年针对该任务的很多研究都是集中在通过挖掘专利文本表示对IPC分类体系中部级或大类级分类号的多分类预测。而实际场景中，一篇专利往往有多个分类号，是一种多标签分类任务，且除了专利的文本内容外，每个专利都有对应的专利权组织，专利权组织的历史专利申请行为会有一定的业务倾向，这种申请行为的偏好表示能有效提高专利分类准确度。然而，目前专利分类的相关研究中并没有充分利用到专利的历史数据，针对IPC体系小类的多标签分类问题，提出一个综合考虑专利内容的专利自动分类模型。模型内主要处理过程如下：首先用BERT预训练语言模型初始化专利文本表示，再利用Text-CNN捕捉局部特征获将其输出作为专利文本的最终表示；其次，通过Bi-LSTM对历史专利文本及专利标签进行双通道聚合，学习该组织的历史专利申请行为表示；最后，将专利的文本表示与历史专利申请行为表示进行融合后做预测。在真实专利数据集上，对比基于专利文本挖掘的不同基线的实验结果，表明基于专利文本和历史数据建模的深度学习分类算法在精确度上有很大的提升。

出版日期2023
单位北京航空航天大学

收藏分享被引浏览

更新时间：2024-01-10 11:51

基于文本及历史数据的多标签专利分类算法研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友