基于概率图模型的发票内容自动识别方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:greattomliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
财务报销过程中,会计及相关人员要对发票进行网上验真、内容审核、记账等操作,目前都是简单重复的手工操作,效率低下。为提高会计电算化及办公自动化水平,本文对发票内容自动识别方法进行研究,以期根据会计工作要求自动提取并识别出发票上的相关内容。通过查阅相关资料,本文在分析总结发票识别的研究现状后,分析了概率图模型在发票内容识别的可行性与优越性。研究和探讨了发票内容自动识别方法包含的必要步骤,分别为发票图像预处理、发票信息的定位、发票信息属性提取、发票内容的自动识别。对于发票图像预处理,通过分析总结常用发票的颜色、表格、位置等信息来作为下一步定位的基本依据。介绍了排除图像中各种倾斜、噪声等干扰的方法。在发票信息的定位过程中,由于发票的固定信息与机打信息存在颜色差异,因此采用一种基于RGB特征和先验知识的发票信息定位方法。并提出了一种把发票中的固定信息和机打信息的语义关联作为发票内容自动识别的重要依据的方法。对于发票信息属性的提取,主要提取了发票待识别内容的字符个数、位置特征、语义关联字符个数等属性作为发票内容识别的依据,为发票内容自动识别拓宽了思路。对于发票内容的自动识别,提出了一种基于概率图模型中的贝叶斯网络的识别方法,并用tesseract-OCR进行识别矫正。通过发票预处理,发票信息定位处理等实验,针对三种发票的固定内容进行了语义分类和识别。实验采用手动收集的110张京东发票,70张出租车统一发票,62张当当网购发票,共计2864个发票固定信息进行语义分类和识别;针对特殊情况,收集了40张残缺的出租车统一发票,40张污损的当当发票,60张褶皱的京东发票,共计1492个固定信息进行语义分类和识别。并与版面分析方法做对比,验证此方法对竖版发票的内容可以进行很好的语义识别。
其他文献
针对"学习外语究竟是‘外语习得’还是‘外语学习’?语言和思维在对学习者学习外语的过程中的影响和作用有哪些?"的问题,该文在"双元结构"理论的指导下,结合语言和思维在外语
双辊铸轧薄带过程中的凝固传热现象十分复杂.用交替方向隐式插分法通过VB语言计算了薄带坯的动态温度场,进而模拟了薄带坯的凝固传热过程,对实际生产有重要的参考价值.
1 自治区卫生工作发展概况改革开放以来,新疆的经济和社会发展各项事业进入快车道,取得了巨大成就。在社会各项事业健康快速发展的同时,医疗卫生事业也取得了长足的进步,全区
期刊
介绍了太钢发电厂引用韩国氧化镁技术进行烟气脱硫工艺的脱硫原理、工艺流程、系统组成以及脱硫效果,为类似老电厂烟气脱硫工程改造提供有益的设计和管理经验.
如何选择老年性肱骨近端骨折治疗方法已成为一个热点问题,本文针对该问题,提出首选切开复位LPHP内固定术,以及人工肱骨头置换术的方法及其优点。
本文以粘性土层为研究对象,利用抽水试验恢复水位计算方法,分析渗透系数与时间的关系曲线,最终得出粘性土层的综合渗透系数值,为今后的弱透水层渗透系数的计算提供宝贵经验。
<正>患者男性,58岁主诉血糖升高9年,消瘦、乏力加重伴血糖明显波动1年现病史患者2000年7月因口渴多饮、多尿、乏力来院就诊,查空腹血糖8.6mmol/L,HbA1c8.2%,诊断为2型糖尿病,
以解构主义翻译理论为基础,通过对《静夜思》不同英译本的分析比较,探究其中的差异,同时发现其局限性,取其精华去其糟粕,以期推动翻译研究进一步发展。
在词汇附带习得理论和投入量假设理论的基础上,通过实证研究发现,相对于&#39;书面写作&#39;活动,&#39;口头复述&#39;更能激发词汇附带习得且保持效果更好。这为英语专业泛读
<正>人们似乎能从《黄雀记》这一小说的标题中获得有关其内容上的隐喻性启示。但要真正理解其中所反映的社会伦理奥妙亦非易事。原因很简单,那就是思维定式限制了人们进一步