基于深度学习的发票自动识别系统的设计与实现

来源 :广东工业大学 | 被引量 : 5次 | 上传用户:cxhhhsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
发票,是指在购销商品,提供或者接受服务以及从事其他经营活动中,开具、收取的收付款项凭证。在国内大部分的企业和政府单位,发票的处理基本采取传统的人工处理的方式,而发票的数量往往比较庞大,使得工作人员负担过大,同时也造成了效率低下等问题。针对此类情况,本文基于深度学习和图像处理算法,设计并实现一套能准确识别数字信息的发票自动识别系统。首先对扫描仪采集到的发票图像进行预处理及倾斜校正,然后对发票信息区域进行定位,获得感兴趣区域。接着对信息区进行去噪,利用投影算法完成单个字符切割。分别收集不同区域切割后的单字符,制作成字符数据集。深度学习的本质是通过构建多个隐层的神经网络来训练样本数据,而训练样本的实质则是让网络自主的学习样本的特征。分析发票印刷数字的特点,运用卷积神经网络的Alex Net网络模型进行数字的训练、识别。本文的主要研究内容如下:1.图像采集、预处理及校正利用扫描仪提供的SDK进行二次开发,实时采集发票图像;由于发票在采集过程中存在倾斜或者光照不均等情况,因此需要对发票图像进行一系列的预处理,然后再做倾斜校正。2.信息区域定位、去噪及字符切割本文需要对五个信息区域定位,分别是:发票号码、金额、税额、购买方纳税人识别号、销售方纳税人识别号。增值税发票是全国统一的,具有相同的且固定的版面结构,可以利用发票结构的特点获取信息区域。首先根据先验知识,获取各信息区域的大致范围,得到粗定位区域;然后根据各区域信息的特点,用模板匹配的方法找到信息的精准区域。接着对得到数字串区域进行去噪操作,以提高后续字符切割和识别的准确率。最后提出了基于先验知识的灰度投影字符切割算法,实现单个字符的切割。3.基于深度学习的数字识别首先搭建深度学习caffe框架,利用字符切割得到的单字符制作字符数据集;然后对卷积神经网络Alex Net网络模型的参数进行调整,训练模型;最后用训练得到的模型进行数字识别。实验结果证明,本系统能快速,准确地识别发票信息,大大提高了发票处理工作的效率,减轻了工作人员的工作量。
其他文献
为了更好地实现对二级倒立摆系统的控制,在基于BP神经网络的PID控制器的基础上,引入增量式函数观测器,以便更好反馈系统的状态来帮助PID控制器作出鲁棒性和适应性更高的控制
"农超对接"对于落实菜篮子民生工程,促进农业产业化和提高农民收益都意义重大。美特好在实施农超对接过程中,存在对接基地规模小、管理差、物流效率低等一系列问题。要实现"
大气污染物中的PM_(2.5)和空气中的粉尘、稀土颗粒等是诱导心血管系统、呼吸系统等疾病发生的重要环境危险因素,目前研究发现颗粒物对肺组织的损伤除了与氧化损伤和炎性损伤
国民经济与社会发展规划、土地利用总体规划和城市规划三大规划的冲突已经成为我国条块管理模式弊端的主要表现。以江苏省海安县为例,对海安县的国民经济与社会发展规划、土
文章以陇南市为例,选取2015年1月-2016年8月甘肃省银行机构小额支付系统、网上支付跨行清算系统逐月数据为指标,从支付系统视角对农村电商业务发展进行了验证分析,认为央行支
目的:探究输注2种不同红细胞对自身免疫性溶血性贫血(AIHA)患者实验室指标及疗效的影响。方法:采用回顾性探究的方法,选取2015年6月至2016年6月本院收治的自身免疫性溶血性贫血患
随着我国经济进入新常态,进一步促进了现代企业的发展步伐,为国民经济收入带来了可观的效益,然而现代企业发展中暴露了一些问题,最为突出的就是融资难问题。所以找出经济新常
从分析人力资源管理中由于尊崇物的引导功能而不是人的引导功能所带来的困境出发 ,以美学思辩的角度论及了人力资源管理的对象化 ,语境化 ,指出价值选择先行于工具选择的管理
<正> 第一,不健全的市场体制直接影响着企业的技术创新能力的形成和发展。一方面,政府对于一些领域仍处在相对垄断经营局面,使这些行业缺少技术创新的外部压力,另一方面,家用
中职学生身上被贴上了很多的标签:"被老师遗忘的人,""捣蛋鬼"等等,但是不可否认的是,这些学生身上也有值得表扬和赞赏的一面。如何用鼓励式教育放大他们的闪光点,帮助他们树