基于概率图模型的发票内容自动识别方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：greattomliu

【摘要】

：

财务报销过程中,会计及相关人员要对发票进行网上验真、内容审核、记账等操作,目前都是简单重复的手工操作,效率低下。为提高会计电算化及办公自动化水平,本文对发票内容自动

【作者】

：

李致毅

【出处】

：

哈尔滨工程大学

【发表日期】

：

2016年期

【关键词】

：

发票内容自动识别语义识别概率图模型贝叶斯网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

财务报销过程中,会计及相关人员要对发票进行网上验真、内容审核、记账等操作,目前都是简单重复的手工操作,效率低下。为提高会计电算化及办公自动化水平,本文对发票内容自动识别方法进行研究,以期根据会计工作要求自动提取并识别出发票上的相关内容。通过查阅相关资料,本文在分析总结发票识别的研究现状后,分析了概率图模型在发票内容识别的可行性与优越性。研究和探讨了发票内容自动识别方法包含的必要步骤,分别为发票图像预处理、发票信息的定位、发票信息属性提取、发票内容的自动识别。对于发票图像预处理,通过分析总结常用发票的颜色、表格、位置等信息来作为下一步定位的基本依据。介绍了排除图像中各种倾斜、噪声等干扰的方法。在发票信息的定位过程中,由于发票的固定信息与机打信息存在颜色差异,因此采用一种基于RGB特征和先验知识的发票信息定位方法。并提出了一种把发票中的固定信息和机打信息的语义关联作为发票内容自动识别的重要依据的方法。对于发票信息属性的提取,主要提取了发票待识别内容的字符个数、位置特征、语义关联字符个数等属性作为发票内容识别的依据,为发票内容自动识别拓宽了思路。对于发票内容的自动识别,提出了一种基于概率图模型中的贝叶斯网络的识别方法,并用tesseract-OCR进行识别矫正。通过发票预处理,发票信息定位处理等实验,针对三种发票的固定内容进行了语义分类和识别。实验采用手动收集的110张京东发票,70张出租车统一发票,62张当当网购发票,共计2864个发票固定信息进行语义分类和识别;针对特殊情况,收集了40张残缺的出租车统一发票,40张污损的当当发票,60张褶皱的京东发票,共计1492个固定信息进行语义分类和识别。并与版面分析方法做对比,验证此方法对竖版发票的内容可以进行很好的语义识别。

其他文献

浅析语言与思维在外语学习中的影响和作用

针对"学习外语究竟是‘外语习得’还是‘外语学习’?语言和思维在对学习者学习外语的过程中的影响和作用有哪些?"的问题,该文在"双元结构"理论的指导下,结合语言和思维在外语

期刊

语言与思维双元结构外语学习外语习得languagethoughtforeign language learningforeign language ac

IAD法在双辊铸轧薄带温度场数值模拟中的应用

双辊铸轧薄带过程中的凝固传热现象十分复杂.用交替方向隐式插分法通过VB语言计算了薄带坯的动态温度场,进而模拟了薄带坯的凝固传热过程,对实际生产有重要的参考价值.

期刊

双辊铸轧薄带凝固传热动态温度场the continuous blank casting of twin-rollheat transfer and so

新疆维吾尔自治区卫生厅继续医学教育工作情况

1 自治区卫生工作发展概况改革开放以来,新疆的经济和社会发展各项事业进入快车道,取得了巨大成就。在社会各项事业健康快速发展的同时,医疗卫生事业也取得了长足的进步,全区

期刊