摘要

票据的自动识别是票据数据化以及提高票据信息处理能力的重要手段之一。考虑到相同类型票据的规格统一,结构相同以及存在大量重复信息,提出了一种基于模版与内容分离的票据识别方法。该方法通过颜色分割将票据的结构及固有文字提取为模版,剩余部分作为票据内容。结合改进的孪生神经网络和模板对齐将待测票据模版与模版数据库中已有票据匹配然后重建新的票据。结果表明,与原方法百度OCR相比,该方法在文字检测时间、识别时间分别降低了68%、91.13%,整体预测时间降低了88.62%,达到3.45 s/张。

全文