论文部分内容阅读
财务报销过程中,会计及相关人员要对发票进行网上验真、内容审核、记账等操作,目前都是简单重复的手工操作,效率低下。为提高会计电算化及办公自动化水平,本文对发票内容自动识别方法进行研究,以期根据会计工作要求自动提取并识别出发票上的相关内容。通过查阅相关资料,本文在分析总结发票识别的研究现状后,分析了概率图模型在发票内容识别的可行性与优越性。研究和探讨了发票内容自动识别方法包含的必要步骤,分别为发票图像预处理、发票信息的定位、发票信息属性提取、发票内容的自动识别。对于发票图像预处理,通过分析总结常用发票的颜色、表格、位置等信息来作为下一步定位的基本依据。介绍了排除图像中各种倾斜、噪声等干扰的方法。在发票信息的定位过程中,由于发票的固定信息与机打信息存在颜色差异,因此采用一种基于RGB特征和先验知识的发票信息定位方法。并提出了一种把发票中的固定信息和机打信息的语义关联作为发票内容自动识别的重要依据的方法。对于发票信息属性的提取,主要提取了发票待识别内容的字符个数、位置特征、语义关联字符个数等属性作为发票内容识别的依据,为发票内容自动识别拓宽了思路。对于发票内容的自动识别,提出了一种基于概率图模型中的贝叶斯网络的识别方法,并用tesseract-OCR进行识别矫正。通过发票预处理,发票信息定位处理等实验,针对三种发票的固定内容进行了语义分类和识别。实验采用手动收集的110张京东发票,70张出租车统一发票,62张当当网购发票,共计2864个发票固定信息进行语义分类和识别;针对特殊情况,收集了40张残缺的出租车统一发票,40张污损的当当发票,60张褶皱的京东发票,共计1492个固定信息进行语义分类和识别。并与版面分析方法做对比,验证此方法对竖版发票的内容可以进行很好的语义识别。