票据结构化识别方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lvhuan009a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子化办公的发展,纸质票据电子化、网上财务报销和信息审核等需求越来越旺盛,而人工处理的过程十分枯燥繁琐,如果能够实现自动化地对纸质票据进行结构化识别,对于解放人力资源、提升效率具有重要的意义。票据结构化识别是指将纸质发票经扫描仪或相机等光学设备变为文字图像,从这些图像中提取文字信息,并建立文字间的结构关系,从中提取出所需的关键信息这一过程。文本检测、文本识别等计算机视觉领域相关技术的不断发展,为票据结构化识别过程奠定了技术基础,但纷繁复杂的票据类型、版面上错位的文字关系和有限的票据图像样本标注给这一任务带来巨大的难题,对此本文提出了基于序列模型和基于图像分割的票据结构化识别方法。基于序列模型的票据结构化识别利用深度学习循环神经网络方法进行文本提取,这一方法建立在文本检测的基础上,通过将图像中已知文本区域转化为序列结构,以文本区域的绝对位置、图像特征和相互关系构建序列特征,对文本区域进行分类从而实现关键文本提取。在这之前首先针对多样的票据类型构建多任务票据图像分类模型,对票据相关信息进行分类,再根据不同的票据类型进行针对性的预处理工作,其中通过模板对齐对票据图像进行仿射变换以矫正票据位置,使票据的关键区域位置具有统一性。基于图像分割的票据结构化识别方法将文本检测与文本提取合并,在文本检测模型中增加文本提取分支,通过前者提取的图像特征与文本检测结果学习关键区域分布规律,以图像分割的方法进一步对文本区域进行分割,为不同的文本区域赋予类别属性,从而得到关键文本区域,再通过文字识别方法对区域内关键信息进行识别。本文通过自己构建的多种类型票据数据集,在样本较少的情况下验证了本文提出方法的可行性和准确性,能够克服文本错位等困难情况,实现了票据结构化识别过程。
其他文献
面对21世纪在国际社会中生存、竞争、发展所需的人才培养问题,目前,世界各国都在进行教改探究。美国长期目标是造就21世纪最优秀的科学家和工程师。日本教改目标是面向21世纪。
本研究在充分回顾文献的基础上,结合公共产品理论、交易成本理论、产权理论、帕累托改进以及共享概念等理论,构建了农村居民参与济南奥利匹克中心影响因素的理论框架,并结合
【正】 左宗棠是中国近代史上一位著名人物。左宗棠一生的事业,是同他的军事活动分不开的。本文拟从建军、治军和用兵几个方面探讨左宗棠的军事思想,总结其中有益的经验及遗
<正> 船山在《诗绎》中说:“‘诗可以兴、可以观、可以群、可以怨’。尽矣,辨汉、魏、唐、宋文雅俗得失以此,读三百篇者必此也。”这段话说明,他对孔子的“兴、观、群、怨”
制动鼓是汽车的易损件、安全件,其生产专业化强.工艺与材料比较成熟、稳定.但对小型.尤其是广大乡镇企业,由于设备、技术条件等原因,企业经济效益与产品质量尚有不尽人意之处,本文根
我国有着五千年的文明史.这种悠久,灿烂的古代文明与我国较为发达的古代农业有着密切关系.或者说,我国漫长的古代文明是建立在我国传统农业发展的基础之上的.那么,现代
【正】 探讨人类自身生产的生产力和生产关系以及它们与物质资料生产和精神生产之间的关系,对于深入研究马克思主义的“三种生产”(即物质资料生产、人类自身生产和精神生产)
随着信息全球化的不断发展,人们进行国际化交流的机会不断增多,英语已经不单单是人们进行表达和传递信息的手段,更是文化的载体。因此,学生运用英语来表达信息和阐述观点的能
我国铜资源储量丰富,随着铜矿资源的不断开采,易处理铜矿资源逐渐减少,使得难处理铜矿资源成为重点处理对象。复杂难处理铜矿资源的新工艺和新技术,对我国铜矿资源的高效回收利用具有重要的现实意义。本论文以西藏甲玛难处理混合铜矿为主要试验研究对象,首先进行工艺矿物学特性研究,在此基础上开展了混合铜矿硫化浮选试验研究以及现场小型验证试验,最终获得了较为理想的选别指标,对该类型铜矿资源的回收具有一定的参考价值。
清代韩小窗作词、曲艺表 演艺术家赵铮老师作曲的河南坠子《黛玉悲秋》,除了文学上的典型意义外,那就是她的音乐形象的魅力了。赵老师在河南坠子传统音调的基础上进行了精雕细