基于弱监督的票据图像细粒度分类算法研究

来源 :宁夏大学 | 被引量 : 0次 | 上传用户:qxd986319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的主要内容是利用深度学习技术对票据进行分类。票据分类是票据自动化处理的关键环节,准确的对票据进行分类能够提高票据自动化处理技术水平,进而实现智能票据自动化识别。在实际票据处理过程中,由于票据的种类不断的在增加,不同类别的相似度较高,人工分类效率低,成本高,并且会出现分类错误的情况,传统的票据分类方法已经不能满足现在的需求。本文结合深度学习方法,提出了改进后的弱监督细粒度数据增强网络的票据图像分类算法。本文针对票据分类的难点,通过分析票据图像的特性,票据图像存在类间差距小、类内差异大特点,提出了改进后的弱监督细粒度数据增强网络的票据图像分类算法,通过对票据图像进行预处理,增强票据图像特征信息,增加注意力机制,扩大网络的感受野的同时能够对具有区分性的细节特征进行判别,使用互通道损失辅助模型训练,使模型对票据图像分类获得更高的准确精度,改进后的模型能够提高票据分类工作效率,降低票据分类错误的风险。主要研究内容包括以下几方面:(1)制作票据数据集。将票据细分为25个类别,将每类票据按照图片级进行标注,并经图像进行去重,保证每张图像的唯一性。(2)对票据进行预处理和数据扩充。本文首先采用PSPNet语义分割网络,对单张图片存在多个票据的图像进行识别和分割,然后将图像输入到光照矫正网络中,有效地去除文档的阴影和重采样变化,使用Sauvola算法对票据图像进行二值化处理,结果表明该方法对低质量的照片处理效果较好,最后使用基于Canny边缘检测和透视变换算法对倾斜的票据进行校正操作,为后续的票据分类提供高质量图像。使用随机裁剪、随机旋转、随机擦除、噪声增广和HSV空间扰动进行随机组合,对数据集进行扩充,模拟现实图像存在的形态,防止模型过拟合。(3)使用ResNet101进行特征提取,并且使用迁移学习的方式,使网络更快的训练,通过在残差结构中添加通道空间注意机制,进一步强化网络对细节定位的能力。(4)使用多分类的交叉熵损失函数替换原网络的类中心损失函数,通过添加判别组件和多样性组件这两个部分,专注每个类别的判别性区域,更好的捕获细节信息,辅助网络更好的寻找局部可区分特征。本文基于弱监督的票据图像细粒度分类算法,实现了票据分类的功能。通过实验进行验证,能够实现预期的目的,本文所提出的票据分类方法分类的结果准确、可靠,能够为后续票据检测和识别提供精准的类别信息,能够满足实时系统应用。
其他文献
进入新时期以后,宁夏的文学创作开始打破冰封寂寞的创作局面,开辟凯歌突进的文学道路。经过四十多年的探索与持续发力,宁夏文学已经成为中国文学不可或缺的珍贵部分。作为文学中不可忽视的因素之一,女性形象在宁夏作家笔下展现出异彩纷呈、不拘一格的艺术样态,从“两张一戈”到“三棵树”再到“新三棵树”,以及后来不断崭露头角的青年作家,女性形象常常成为宁夏作家创作中所关注的焦点之一。新时期以来中国作家笔下的女性形象
学位
基于深圳国际低碳城会展中心的建筑布局和运营特点,设计时采用了水资源再生利用、雨水降污截流和节水技术等绿色节水技术,这些技术的应用大大降低了该工程对传统水资源的依赖,提高了非传统水资源利用率,并减少了污染物的排放。
期刊
文书用语是文书特有的表达方式和文书所使用的特定用语,通过对《全宋文》中所收录的宋代文书的梳理与归纳,我们可以总结出宋代官府所使用的文书用语。根据此前学者的研究,我们将宋代文书分为皇命文书、上奏文书、官府下行文书和平行文书进行研究。本文涉及的宋代皇命文书有册、制、诏、敕、御札、敕榜,上奏文书有奏、状、表、启、疏、劄,官府下行文书有劄、帖、檄、榜,平行文书有咨、移、牒。在厘清每种文书在宋代的功用及该文
学位
宴享赋诗是《左传》中记述的一种行为,其形式为参与宴享场合的双方进行赋诗,在赋诗过程中完成信息交换,用时人都能普遍认可的价值取向,来传达某种特定的信息。赋诗双方通过断章取义的解诗方式,委婉地表情达意、解读对方,从而完成双向交流互动。《左传》宴享赋诗所涉诗篇共51首,从《颂》到《风》皆有涉猎。通过对所涉诗篇的解读与分析,《左传》中人在赋诗时,以诗篇的内容为首要选择标准,在有明确需求的场合下,其诗篇的选
学位
英语教科书内部评价是评价主体从内容、教学方法、组织和目标等方面对英语教科书的评价。CLIL(Contentand Language Integrated Learning)是将内容与英语语言相融合的一种英语语言教学理论,其核心在于通过主题内容学习英语,利用英语学习主题内容的知识以及其蕴含的思想和文化。基于CLIL理论的英语教科书内部评价是评价主体从4Cs(内容、交际、认知和文化)4个维度对英语教科
学位
配电网在整个电力系统中起到直接向用户输送电能的作用,既是电力系统的重要组成部分,也是最容易出现故障的一部分。一旦出现故障,将会对整个电力系统造成巨大的影响,甚至导致电网瘫痪而引发大面积停电事故。因此,当配电网出现故障时,寻找一种快速准确并且具有容错能力的定位方法是保障配电网可靠供电以及快速排除故障的前提条件。此外,随着DG大量并入配电网,使得传统的故障定位算法不再适用,DG的投切状态、接入位置以及
学位
一直以来,《文心雕龙》是中国古代文学研究领域中的重镇,有关《文心雕龙》的研究成果可谓浩如烟海。虽然已有学者从接受学的角度研究《文心雕龙》在后世的接受情况,但是,对于《文心雕龙》中的“楚辞”批评及其在后世接受的研究尚有待进一步挖掘,因此,本论文一方面对《文心雕龙》中的“楚辞”批评进行总结,另一方面以时间为轴,梳理了后世文人对《文心雕龙》中“楚辞”批评的接受情况,并试图总结出《文心雕龙》中“楚辞”批评
学位
<正>小学生的数学学习,可以说是一个不断产生认知冲突、进而深入探究,最终内化运用新知的过程。而小学的数学概念具有一定抽象性,学生在认识新概念的过程中必定会产生相应的认知冲突。因此,在小学数学概念教学中,合理运用认知冲突,能够帮助学生更好的理解和掌握数学概念,提升学生的思维品质和数学素养。
期刊
東漢許慎編撰的《說文解字》(以下簡稱《說文》),是我國第一部根據六書理論、參證文獻用例系統分析字形、說解字義、辨識音讀、揭示形義關係的字典,是中國傳統語言文字學的一部奠基巨著。但許書歷經戰亂更迭,一千多年來輾轉傳寫,多有錯訛舛誤失真之處。乾嘉時期,“說文學”鼎盛,百家爭鳴,以段玉裁的《說文解字注》(以下簡稱《段注》)最具代表性。段氏綜合文字學、音韻學、訓詁學等知識,運用内證法、外證法等校勘方法對《
学位
《善见律毗婆沙》是南朝齐时期僧伽跋陀罗翻译的佛经,该经是为注解戒律而作。佛经译经者的生平年代都具体可考,篇幅较长,词汇丰富,语料约20万字,适合作专书研究。本文通过对《善见律毗婆沙》中的新词新义进行定性定量分析,来考察新词新义的特点、形成原因和形成途径。文章共统计出新词221例,新义41例。本文除绪论外,共有四章:绪论介绍了《善见律毗婆沙》的概况、研究背景和研究意义等内容,确定所选文本的研究价值和
学位