增值税发票自动识别算法研究

来源 :大连海事大学 | 被引量 : 11次 | 上传用户:xtcwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
增值税发票是商业活动中的会计凭证和完税凭证。为了方便发票信息的存储、传输与查账,需要将纸质增值税发票上的信息,录入计算机数据库存储。增值税发票自动识别算法是通过项目定位、字符分割和字符识别等处理过程,将增值税发票上的信息提取出来,解决传统的由人工输入信息带来的巨大工作量和效率低下的问题。而随着移动设备的普及,针对移动设备设计的增值税发票识别算法,通过在移动设备上随时、随地获取增值税发票信息,提高企业和个人获取信息的便捷性,为远程报账和计税提供便利。本文以移动设备拍摄的增值税发票图像作为研究对象,提取发票中的所有机打信息,主要工作如下:1)给出了发票检测和项目定位算法本文通过对发票的版面结构和内容进行分析,将增值税发票以矩形框为界,分为了矩形框外部区域和矩形框内部区域。首先对矩形框采用多尺度模板匹配算法,将发票矩形框的位置定位出来;然后针对矩形框外部区域,采用基于与矩形框相对位置关系的方法进行发票项目区域的定位;针对矩形框内部区域,采用场景文本检测算法,结合连通域分析的方法进行项目区域定位。2)给出了增值税发票的字符分割算法本文针对增值税发票的字符粘连和字符不连通这两个分割问题给出了综合解决方案。首先使用传统的字符分割算法,对字符进行初步分割;然后针对粘连字符,使用滴水算法,将字符尽量过分割;最后使用基于识别反馈的字符识别算法,将不连通字符与过分割字符不断合并与识别,并将识别置信度反馈给合并程序,直至得到识别置信度最高的合并方式,即为字符分割最佳结果。3)给出了针对形近字的字符识别算法本文分析了形近字的字形结构特点,给出了字符分块方法和是否存在形近字的判断方法。首先通过初步匹配结果判断当前字符是否存在形近字,对于形近字符,采用能够放大形近字差异的字符分块识别算法;对于非形近字,利用加权kNN算法优化识别结果。之后将识别置信度反馈给分割程序,进行分割优化。为验证增值税发票自动识别算法的性能,本文采集了 56张不同环境下的增值税发票图像,待定位区域为1334行,总字符数为15191个。对以上发票进行识别测试并统计实验结果,本文算法的项目定位正确率为97.53%,字符分割正确率为98.13%,字符识别正确率达到了 96.55%,其中汉字识别正确率为96.25%,数字及英文字母识别正确率为95.67%,其他符号的识别正确率为99.37%;考虑发票票面所有字符,字符的全局识别正确率为93.63%。
其他文献
分析了四辊中厚板轧机万向接轴的润滑情况,对接轴铜滑块的几种润滑方式作了探讨,介绍了一种润滑效果较好的干油自动润滑装置.
铜矿峪矿氧化矿石量1 000多万t,主要分布在5号矿体中,属于难选矿石.从其物质成份、结构构造及铜的赋存状态(包括铜的载体矿物、分配率、铜矿物的粒度分布特征)几个方面,详细
目的探讨组织蛋白酶D(Cath-D)和基质金属蛋白酶9(MMP-9)在膀胱移行细胞癌(BTCC)中的表达及其与肿瘤临床病理、术后复发、转移及预后的关系。方法采用免疫组化(SP法)检测60例BTCC和10
城市的人们来说,公园是这城市沙漠中的宝贵绿洲,它就像一扇窗户,让人在令人燥热的城市生活中体验碧绿与清新,融洽与休闲。探讨了城市开放空间的概念,并提出设计方法。
目的:探讨四肢骨折应用锁定加压钢板内固定的临床治疗效果。方法选取我院近年来收治的四肢骨折患者60例,并随机将患者分为对照组和观察者,对照组患者采用传统的解剖钢板进行治疗
装饰装修是建筑工程项目施工的重要内容,优化装饰装修质量,不仅能保证建筑整体美观性,而且能提升人们居住的舒适程度。本文就建筑装饰装修施工企业项目管理问题及对策展开分
<正>老年性痴呆是一种隐匿发展的神经系统退行性疾病,以进行性记忆减退、认知功能障碍及人格改变为特征,在中医学中属于"健忘"、"郁证"、"癫证"范畴[1]。老年性痴呆患者往往
目的对应用腹腔镜手术技术与传统手术技术对患有急性阑尾炎的肥胖患者进行治疗的临床效果进行研究分析。方法将84例患有急性阑尾炎的肥胖患者病例作为研究对象,并将其分成A、
滑块式万向接轴滑块磨损较快,浪费了大量青铜,为了提高滑块寿命和节约青铜,有用尼龙6作为替代材料的,但尼龙有吸水性大,尺寸稳定性差,热传导系数小等缺点.本文提出了一种滑块
2008年的国际金融危机揭示了系统性金融风险对于金融体系和实体经济的危害,为了弥补传统金融调控框架的缺陷,加强系统性金融风险的防控以及提高金融服务实体经济的水平,人民