摘要

传统的文字识别方法很少考虑场景词汇语义的完整性,在输入文字图片严重变形或光照复杂时,会输出无意义的结果。对此,提出一种基于子词编码的自然场景文字识别模型——Subword Encoding Network(SeNet)。该模型将场景中文字包含的语言信息编码到子词,在Transformer模型中引入先验语言知识;在子词编码的基础上提出双向语义融合框架,使模型同时学习顺序、逆序和子词编码的特征;根据不同结果的置信度整合输出文本,增强所提模型的识别能力。SeNet模型克服了现有方法识别过程中存在无意义文本输出的问题,提升自然场景中文字识别的准确率。实验结果表明,该方法相比其他方法,在数据集IC13、SVT、IIIT、SVTP、CUTE中准确率分别提升了1.5%、0.3%、0.1%、1.9%、1.8%。