基于子词编码的自然场景文字识别

娄策力; 仝明磊<sup>*</sup>; 薛亮

摘要

传统的文字识别方法很少考虑场景词汇语义的完整性，在输入文字图片严重变形或光照复杂时，会输出无意义的结果。对此，提出一种基于子词编码的自然场景文字识别模型——Subword Encoding Network(SeNet)。该模型将场景中文字包含的语言信息编码到子词，在Transformer模型中引入先验语言知识；在子词编码的基础上提出双向语义融合框架，使模型同时学习顺序、逆序和子词编码的特征；根据不同结果的置信度整合输出文本，增强所提模型的识别能力。SeNet模型克服了现有方法识别过程中存在无意义文本输出的问题，提升自然场景中文字识别的准确率。实验结果表明，该方法相比其他方法，在数据集IC13、SVT、IIIT、SVTP、CUTE中准确率分别提升了1.5%、0.3%、0.1%、1.9%、1.8%。

出版日期2023
单位上海电力大学

收藏分享被引浏览

更新时间：2024-03-15 16:59

基于子词编码的自然场景文字识别

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友