面向孔府古籍文档图像的文字识别研究与实现

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:piaoye2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
古籍档案蕴含着先贤智慧,承载着民族情感,是我们国家非常宝贵的文化财富。目前很多古籍面临着风化、破损等问题,且无法被大众查阅和共享。古籍文档的数字化不仅便于人们研究和交流,而且有利于优秀传统文化的继承与发扬,具有重要的历史价值和科研价值。古籍文档数字化主要涉及图像预处理、文档图像分割、字符图像识别等关键技术的研究,本文针对孔府古籍文档图像中的文字识别问题,主要研究了以下内容:首先,针对古籍文档同一文本列中的字符大小相差很大这类分割难题,在改进单次循环投影分割算法的基础上提出了二次循环投影分割算法。对于预处理后的二值图像,首先使用单次循环投影分割方法提取每一个文本列,然后根据文本列的水平投影划分其中的每一个字符。因为古籍文档的同一文本列中可能存在多列小字符,相邻很近的两个字符会被检测为一个汉字,故继续对分割到的每个字符再次执行投影分割算法,通过设定合适的阈值避免对字符过度分割。实验证明二次循环投影分割算法能够更加准确地定位每一个字符的位置。其次,提出了基于卷积神经网络的手写体汉字识别模型HCCR-Inc BN。针对深度学习模型中存在权重参数多、训练收敛慢、模型太大无法嵌入便携设备等问题,本文应用Goog Le Net中的Inception-v2模块,兼顾网络的宽度与深度,实现了不同特征的融合与映射;利用1×1卷积操作降低了参数数量与特征映射通道数,应用批量标准化算法与滑动平均算法来优化模型。存储模型只需要26MB,通过在公开手写体汉字数据集CASIA-HWDB1.1与ICDAR2013上的实验,对比证明了HCCR-Inc BN模型的识别有效性。此外,本文针对现有脱机手写简体汉字数据集不能有效用于古籍繁体汉字识别的问题,在对孔府古籍档案图像进行预处理和分割操作的基础上,人工标注每个字符图片的类别标签并进行数据集增强,创建了一个全新的脱机手写体古籍汉字数据集(Confucius’Mansion Archives Data),现有数据集包含1131个类别的繁体汉字、339300个样本。本文最后设计开发了古籍文档数字化系统,实现了“古籍文档图像上传”→“图像预处理”→“文档图像分割”→“字符图像识别”→“生成电子文档”的全过程。综上,本文提出的二次循环投影分割算法、设计的脱机手写体汉字识别模型、创建的手写繁体汉字数据集和开发的古籍文档识别系统,不仅巩固了古籍文献数字化的基础,而且对优秀传统文化的保护、传承和应用具有重要的实践价值。
其他文献
实训是学生进一步深入理解专业理论的重要环节,是掌握专业技能不可缺少的学习步骤。传统实训教学模式中,学生和教师间互动较少,学生课后复习时难以再现课上教学时的场景。教师对实训教学的效果不够清楚,学生的学习效率和教师的教学效率都大打折扣。除此之外,固定的实训地点和实训时间对学生有着诸多限制,他们难以自主选择自己感兴趣的实训课程随时随地的学习。为解决上述问题,本文设计并实现了一个在线实训研讨云平台。该平台
2020年高考后,山东省发布的《2020年山东省普通高校招生填报志愿指南》中阐述了一系列志愿填报及录取规则的改变,标志着山东省“新高考”进入实施阶段。新政策实行后,志愿设置和填报志愿的权限规则都有较大变化。其中,最大的变化当属取消文理分科,采取“3+3”选考模式。同时,志愿填报的模式由“院校+专业”转变为“专业+院校”,每位考生可填报志愿的数量从36个上升到96个。政策改变带来的影响包括2020年
随着人口老龄化以及肌体失能人群的增加,市场上出现了许多为人们提供肢体训练、位置转移、独立自理等功能的康复诊疗智能设备,为肌体失能人群提供康复诊断和训练理疗服务。但是,这些康复诊疗智能设备存在着诊断不精准、训练理疗效率低、诊疗数据无法积累、患者训练记录不完整等问题,同时,针对康复诊疗领域的现有平台功能大同小异、千篇一律,主要以数据存储与读取为主,并不能对数据进行更有效的利用。本文设计了一套既可以管理
作为数据分析和知识获取的有效工具,概念格在大数据背景下具有广阔的发展空间。通过高效挖掘数据深层信息,快速建立数据之间的联系,可以满足多种领域的任务诉求。随着生物基因测序技术的发展,研究者意识到不能仅仅局限于获取生物基因数据,探究其中蕴含的特征规律也十分重要。因此,寻找有效挖掘和分析生物基因数据的方法成为当前的研究热点。分析现有的数据挖掘方法,发现其应用于生物基因数据仍存在以下不足:数据挖掘过程中侧
紫貂广泛分布于西伯利亚和欧洲东北部地区的亚寒带针叶林。其分布区气候长期寒冷,冬季气温普遍低于-30℃。紫貂与其它寒冷环境下的动物(北极熊、企鹅、鲸类和鳍足类等)相比具有较低的体脂率,因此不能通过厚厚的皮下脂肪层来隔绝寒冷空气。由此可见,紫貂进化出了不同的寒冷适应策略,然而其寒冷适应机制尚不明确。本研究基于课题组已有的紫貂全基因组数据,利用比较基因组的方法筛选紫貂脂肪代谢正选择基因,通过另外两只紫貂
基于大数据、云计算、移动互联网等技术的发展,数据通信多采用公共信道,敌手可通过公共信道实施假冒攻击伪装成合法参与者进行通信,窃取内部信息,造成用户身份和敏感数据的泄露。为了抵抗假冒攻击,保护合法用户的身份隐私,在进行通信前需要对用户进行匿名身份认证和密钥协商。匿名认证和密钥协商后,考虑到现有的匿名通信系统在通信时,对网络带宽和内存需求较大,不适合小规模团体使用,但小规模团体对于匿名通信的需求十分迫
培育耐盐农作物是盐碱地开发的重要途径和可行措施,我国已培育出多种类型的耐盐粮食作物和经济作物,但种植成本较高,经济效益较低,尚处于实验阶段。相对于粮食作物,蔬菜的经济价值较高,是开发盐碱地更有前景的农作物。目前传统育种或基因工程育种获得的耐盐蔬菜的耐盐效果均不理想,且在盐渍条件下产量较低,鲜有大规模推广应用。大白菜(Brassica rapa L.ssp.Pekinensis)其生长周期较短,产量
生成对抗网络(GAN)通过对抗学习拟合真实样本分布,获得生成数据的能力,对人工智能的发展有重要意义。近几年,关于GAN的创新性研究越来越多,各种衍生模型不断完善与发展,被广泛地应用于图像领域,取得了很多突破性的成果。然而,GAN的本质是在两个神经网络的博弈过程中学习真实样本分布,其生成图像与真实图像没有绝对的对应关系且缺少明确的似然衡量,传统方法很难量化生成图像的质量。目前,针对GAN生成图像进行
知识图谱是由实体及其关系组成的语义网络结构,是以三元组的形式来描述现实世界中的各种事实,已经成为人工智能应用的重要资源。但是,现有知识图谱往往是不完整的,存在知识缺失现象。因此很多研究旨在对知识图谱进行补全,就是根据已有三元组推理出新的事实三元组并添加到知识图谱中。而知识图谱嵌入技术则是知识图谱补全的最好方法之一,其中以TransE模型为代表的Trans系列翻译模型具有较强的泛化能力,能够在链接预
蒙原羚(Procapra gutturosa)隶属于原羚属,主要分布于蒙古国、俄罗斯以及中国。呼伦湖国家级自然保护区(以下简称:呼伦湖保护区)的蒙原羚种群是由8只个体经过17年左右的时间形成的局域种群。然而,近年来,受近亲繁殖和人类活动影响,该蒙原羚种群表现出种群增长减缓等现象。因此,为了该种群长久健康的发展及科学的保护,我们基于8对微卫星位点和线粒体Cytb基因对该局域种群的遗传多样性进行检测,