论文部分内容阅读
近年来,随着社会经济的快速发展,我国的发票使用量与之俱增。发票作为各种经济活动的凭证,是财务报销流程的重要依据。目前传统的财务报销流程繁琐,发票的分类和识别等任务都由人工完成,效率很低,且极大地浪费人力和物力资源。本文使用了基于传统图像处理方法和新兴的深度学习方法,完成对发票图像智能分类、检测和识别等任务。首先,本文设计了一个基于模板匹配的发票识别方法,用来对扫描的发票图像进行自动识别,主要包括图像预处理、模板匹配、光学字符识别和信息存储等步骤。其中,图像预处理步骤使用边缘检测和轮廓提取等方法,对原始的发票图像进行二次旋转和边缘裁剪,得到去除背景信息的发票图像。模板匹配步骤将发票图像与预先准备好的模板图像进行比较,提取出文字区域。光学字符识别步骤对包含文字的区域进行识别,得到文字信息。信息存储步骤对识别出的文字信息进行修正和存储。通过实验测试了模板匹配的六种匹配方式,最终发现采用归一化相关系数匹配法的综合性能最好,其识别准确率为95.02%,识别发票图像中二十个区域共需8.6毫秒,其速度很快。接着,本文设计了一个基于卷积神经网络的发票分类方法,用来对手机拍摄的发票图像进行分类。本文设计的模型结构借鉴了VGG-16模型,并根据制作的数据集特点进行改进,实现端到端的对增值税发票、火车票和打车票三种图像进行分类。通过实验对本模型与其他几种模型在分类准确率、运行速度和模型规模三个方面进行比较,最终发现本模型的综合性能最好,其分类准确率为99.05%,对每张发票图像分类所需时间约为0.18秒,其模型规模为3.65 MB,即更容易将模型移植到便携设备中。然后,本文设计了一个基于深度学习的发票信息检测和识别方法,用来对手机拍摄的发票图像进行文字检测和分类。首先训练YOLO-V3模型对发票图像进行区域检测和提取,得到四个信息区域,分别是购买方信息、商品信息、价格信息和销售方信息。然后训练CTPN模型对提取的区域进行文字检测,得到行文本区域。最后训练Dense Net模型对行文本区域进行识别,得到文字信息。通过实验测试本方法的性能,验证得到其检测和识别的效果很好,模型收敛时区域检测交并比达到1,对每张发票图像的检测时间约为0.66秒,文字识别的准确率达到95.18%,对每张发票的识别时间约为1.55秒,平均每一行文字识别仅需0.06秒。最后,本文对三种方法进行总结和展望,分析了三种方法的可行性,并分别提出了改进的方向。