基于OCR的发票真伪自动鉴别方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:shyandi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生产办公自动化的发展,机打发票代替了手写发票。目前主要是通过到税务局网站手工查询的方式进行发票真伪鉴别,效率低,易出错。本文研究一种基于光学字符识别(OCR)的发票号码识别方法,以实现发票真伪自动鉴别。针对发票图像受拍摄和印刷问题影响,首先对发票采用改进后的底帽变换和类间最大方差二值化方法进行处理,得到二值化图像。通过Hough变换检测发票中的线段和矩形的方法,计算倾斜角度均值并进行图像矫正。由于发票中存在大量和发票序列号无关的字符,本文根据序列号的特点,提出了基于轮廓特征的字符区域分割方法,并给出根据字符外接矩形宽度和高度进行自适应延伸的相关计算表达式,相比较于其它形态学和机器学习等方法,其具有准确简易通用性高的优点。本文研究利用聚类分析的方法对于初步选择的独立字符外轮廓进行集合与分割,并给出考虑字符序列排列方向的近邻距离计算表达式。文中同时分析对于单像素宽度轮廓的链码表示方法。对于字符识别部分,根据连通域位置关系等信息修复错误的粘连和断裂并分割独立字符。之后提取字符的像素分布特征和交点,笔划方向等结构特征,利用支持向量机方法(SVM)实现了字符识别分类器的训练与识别。本文的多分类器采用一对一投票方式,并利用交叉验证方法计算参数组合的准确度以优化相关参数。相关实验结果表明,文中的字符区域分割方法和基于SVM分类器的字符识别程序能够较为准确的识别不同种类发票的序列号,其通用性好于现有的格式匹配方法,并能够应用于其它同类平面图像的字符识别,具备使用价值。
其他文献
目前我国工业生产中越发注重非标自动化设备设计制造,这是与标准化生产相对应的一种生产与制造方式,对工业发展具有显著的促进作用。传动控制系统包括气动传动控制系统、液压
目的:探讨改良型多功能冰袋在髋膝关节手术患者中的应用方法及效果。方法:选取2015年9月~2016年9月我院收治的56例髋膝关节手术患者作为对照组,采用干毛巾包裹盐水冰袋进行冰
目的:探讨最小ADC值对四脑室区肿瘤诊断及分级的价值。方法:回顾性分析41例四脑室区肿瘤的常规MR、DWI表现,以病理结果进行分类,WHOⅢ~Ⅳ级为高级别组,WHOⅠ~Ⅱ为低级别组,对两
现行隧道设计中广泛采用荷载-结构法,其中合理地确定围岩抗力系数至关重要。文章基于可较好反映岩体非线性破坏特征及可解释岩体拉应力区及低应力区对围岩强度影响的Hoek-Bro
知识源于生活却又高于生活这一观点是自古以来都被人们所认同的,而这个观点在语文教学中更是体现的淋漓尽致。因为语文知识是在丰厚的文化底蕴和悠久的文明发展中沉淀出的,与
在公路自行车道施工中运用常温彩色沥青胶结料,能够有效解决传统彩色沥青路的抗滑性差、耐久性差、路线长、作业难度较高、专用拌和站少等施工质量问题。文章对常温彩色沥青
目的:探讨心型脂肪酸结合蛋白(Heart-type acid binding protein,H-FABP)的定量测定对于诊断新生儿轻度窒息合并心肌损伤的临床意义。方法:实验组选取临床诊断为新生儿窒息55
目的:设计和构建ROR2基因特异性的小干扰RNA体内表达载体,筛选抑制ROR2表达的有效小干扰RNA,并初步探讨ROR2的功能。方法:化学合成法合成重组质粒ROR2siRNA;脂质体法将其转染入
朗读,是阅读的儿童方式从小在书声中长大的儿童,是天生的朗读者。朗读乃至唱读,是他们亲近文本最生动、自然,最重要的方式。即使朗读得不太令人满意,也并不妨碍他们以此方式,
期刊
基于非线性同伦思想 ,提出了非线性最小二乘同伦方法 ,并推导出相应的GPS同伦非线性模型和算法。算例表明 ,对于精度较差的初始值 ,采用同伦非线性GPS伪距定位模型较线性最小