【摘 要】
:
随着我国物流行业的迅速发展,使得物流运输中票据的使用量飞速增长。所有票据中的信息都需要录入计算机归档,使得处理票据的压力越来越大。现阶段对票据信息提取的处理方式有两种,第一种是依靠人工的方式,这种方式需要雇佣和培训专业人员,耗时耗力,且成本很高,难免会出现录入出错的情况。第二种是,简单版式的票据自动识别,只能识别一些格式简单且固定的票据,例如银行支票等。但物流领域使用的票据一般是复杂版式的表格型票
论文部分内容阅读
随着我国物流行业的迅速发展,使得物流运输中票据的使用量飞速增长。所有票据中的信息都需要录入计算机归档,使得处理票据的压力越来越大。现阶段对票据信息提取的处理方式有两种,第一种是依靠人工的方式,这种方式需要雇佣和培训专业人员,耗时耗力,且成本很高,难免会出现录入出错的情况。第二种是,简单版式的票据自动识别,只能识别一些格式简单且固定的票据,例如银行支票等。但物流领域使用的票据一般是复杂版式的表格型票据,这种票据方便信息录入、存储和管理,成为物流领域通用的票据形式,针对这种类型的票据,目前还没有一种可靠的技术可以快速准确的从中提取出所需的信息。本文通过以上分析,对物流票据进行了深入研究,提出了一种针对复杂格式的表格型票据自动提取信息的算法,能够实现快速的票据信息提取,准确率达98%以上。本文首先对票据进行特征提取,然后通过聚类分析来对票据进行自动类别标注,构建票据数据集,使用这些数据集训练分类器,再为每一类票据定义一个模板,通过模板匹配的方法定位到提取单元的位置,再利用文字识别获得提取单元内的信息。论文的工作如下:1、把不同种格式的票据统一转换为图像格式,通过对票据的分析,发现票据表格是票据的关键特征,利用数字图像处理技术对图像进行处理,获得票据中的表格信息,并利用这些表格提取出共计23个特征点。2、由于本文中使用的物流票据没有类别标注且数量大,所以通过聚类的方法对票据进行自动的类别标注,本文通过各种聚类算法的对比分析,选用K-Means++作为本文的聚类算法,并根据聚类结果构建数据集。然后对不同的分类器进行优化,对比各种分类器的性能后选取SVM作为本文票据分类的分类器。3、为了快速定位票据的提取单元,本文提出了一种基于模板匹配的提取单元定位算法,另外利用PyQt设计了一种交互式模板定义的工具,可以方便快速的定义模板。4、票据模板匹配中需要对票据中的字符进行识别和相似度计算,其中字符识别部分,对于纯文本的票据使用PDFMiner,对于纯图片的票据使用光学字符识别技术,其中字符相似度计算使用编辑距离。
其他文献
演唱者个人的音乐审美能力在一定程度上决定着其对一首歌曲的诠释能力以及将歌曲精髓传达给听众的好坏程度;而舞台的表现力恰好是和审美能力有着密不可分的内在联系,它是对歌
目的分析和探讨骨外科临床上对于高龄股骨转子间骨折患者采用人工股骨头置换术治疗的效果,总结其临床适应证,从而为该方法的临床推广提供参考。方法对我院骨外科2009年4月至2
<正>民族音乐学发展共有两大阶段:前期比较音乐学阶段(至20世纪50年代初,作为学科名称的"比较音乐学"开始被"民族音乐学"替代。这一学科称呼的更换归功于荷兰音乐家、现代民
石油工程项目的施工现场管理工作对于整个项目的质量有着十分关键的作用,但是当前由于石油施工项目现场管理中存在一定的问题,严重影响了石油项目的质量。石油项目施工现场管
铸造应力是当一个铸件冷却到其弹性状态之后,在收缩过程中会受到阻碍,进而产生的一种弹性应力。铸造应力主要是由于铸件存在的热应力而引起的,对于铸件中还存在的相变应力,则
<正>风湿寒痹是临床上常见病,多发病。近3年来,我院风湿病科采用中药熏蒸合驱寒通痹片治疗本病60例,取得满意疗效,现报道如下。一般资料60例患者中男性32例,女性28例;年龄21~
当前,国际投资仲裁裁决不一致、国际投资仲裁程序损害东道国主权的现象时有发生,使得人们对国际投资仲裁的正当性产生了质疑。造成国际投资仲裁裁决不一致的主要原因在于BIT
目的:探讨1型糖尿病患者血清B细胞活化因子(B cell-activating factor belongingto the TNF family,BAFF)水平的变化及其临床意义。方法:采用酶联免疫吸附法(ELISA)检测26例1型糖
空间光通信具有保密性好,信息容量大,抗干扰能力强等优点,是现代通信系统研究的热点之一。脉冲位置调制(pulse position modulation,PPM)是空间光通信系统中一种性能优良的调
对全球主要铊矿床的成矿地质背景、成矿时代、控矿构造、赋矿围岩和成矿物理化学条件进行了综合对比分析,得出了全球铊矿床的分布特征与成矿规律:铊矿床主要产出于沉积岩发育