基于深度学习的西夏古籍字符生成与检测识别

来源 :宁夏大学 | 被引量 : 0次 | 上传用户:naocan528
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
西夏古籍是研究西夏历史的重要文献资料,然而辨识与理解其中的西夏文对研究人员来说依然存在较大困难,因此对西夏古籍文字的检测与识别就显得尤为重要。在以往基于深度学习的西夏古籍识别研究中,缺少均衡的西夏古籍字符数据集和有效的检测识别方法。由于西夏文字存在种类繁多、结构复杂且相似的问题,创建分布均衡的西夏古籍字符数据集和有效的检测识别方法仍面临巨大挑战。针对以上问题,本文主要工作如下:1、构建西夏古籍风格字符生成网络,扩充数据集。通过西夏古籍字符生成网络扩充668字符的西夏古籍字符数据集,提出 了基于 ACDGFont(Adaptive Coordinate Deformable Generative Font Networks)的西夏古籍字符生成模型。基于DGFont网络,通过对内容特征图像融合坐标注意力模块,通过精确的位置信息对通道关系和长期依赖性进行编码,提高对内容结构特征空间位置信息的提取;融合自适应卷积模块,使风格图像的浅层特征层的图像信息更好的融合到内容图像中,生成结构更清楚、细节更准确的西夏古籍风格字符,扩充数据集,得到668类样本均衡的西夏古籍字符数据集。2、使用基于迁移学习的 CRAFT(Character Region Awareness for Text Detection)西夏古籍单字符检测算法。针对西夏文与汉字结构相似的特性,使用CTW汉字单字数据集对CRAFT算法模型训练,使模型学习到汉字特征,得到预训练模型,使用迁移学习将应用到西夏古籍图像中,实验结果表明,CRAFT模型可有效完成西夏古籍字符检测。3、构建西夏古籍文字识别网络。提出了基于SAVAN(VisualAttention Network)的西夏古籍单字符识别算法模块,在传统的特征提取网络中,融合有监督对比学习损失函数进行识别,有效使用不同西夏字符标签,融合坐标注意力模块,通过精确的位置信息对通道关系和长期依赖性进行编码,增强网络学习图像特征的表达能力,进一步提高识别准确率。实验结果表明,基于SAVAN的西夏古籍字符识别模型的识别精度得到了有效提升。4、设计了一套西夏古籍字符生成与检测识别系统。基于Django框架,实现了从西夏字输入到输出西夏古籍风格字符图像,从西夏古籍图像输入到输出图中每个字符位置检测与识别结果的端到端系统设计,实现Web端的可视化展示。
其他文献
随着互联网与智能终端的发展,越来越多的数据被产生,面对大量无规则且复杂的数据如何从中提取有用信息是目前迫切需要解决的问题。聚类作为数据挖掘领域核心方法之一,可以将无标签的数据进行划分,因此,广泛被应用于多个领域。为了顺应时代的需求,越来越多的聚类分析方法被提出,其中,密度峰值算法(DPC)具有输入参数少、对数据集分布的状况和噪音数据都不敏感以及聚类效率高等优势,使得该算法自发布以来备受国内外学者关
学位
文化生态保护实验区是整体保护“活文化”和文化生态的一种有效方式。本文通过分析陕北文化生态保护实验区内的非遗资源,分别从非遗资源特征、空间分布特征两方面进行研究分析,衡量陕北地区非遗资源是否适宜转化为旅游产品,在陕北全域范围内分析得出不同程度旅游开发适宜性的县区,为陕北国家文化生态保护实验区非遗的旅游开发提供依据,促进陕北地区非遗资源的保护与发展。通过适宜性评价,最后得出延安市宝塔区的旅游适宜性水平
学位
随着当前社会矛盾的日益突出,城乡居民消费结构的进一步升级,葡萄酒产业市场前景广阔,“葡萄酒+旅游”新业态呈现巨大发展潜力。面对新时代新机遇,我国的葡萄酒产业完全可以大有所为,并形成千亿级规模的产业集群,这不仅是贯彻落实习近平总书记对宁夏乃至中国葡萄酒产业重要指示,也是实现中国葡萄酒“当惊世界殊”愿景目标的良好契机。目前我国的葡萄酒旅游目的地的发展跟不上旅游需求的步伐,葡萄酒旅游目的地的评价和建设迫
学位
图像描述是计算机视觉应用于视觉理解的一项子任务,其主要目标是将一幅图片翻译为相应文本描述,不仅需要识别图片中的重要对象,对象的属性和位置逻辑关系,还要根据这些信息生成语法和语义正确的句子。与传统视觉任务不同,图像描述涉及计算机视觉与自然语言处理两大研究领域,使其成为一个具有挑战性的工作。现有图像描述方法主要采用“编码器-解码器”结构对图像进行编码、解码从而获得对应描述,效果显著但仍存在诸多问题有待
学位
随着在线社交平台的不断发展,社交网络已经成为信息传播的重要渠道,社交网络中涌现出大量的口碑信息,这些口碑信息不仅影响消费者对企业产品的认知及购买决策,而且对企业制定营销策略有着重要的参考价值。因此,迫切需要对口碑信息传播机制进行研究,如何构建口碑信息传播模型以及真实反映口碑信息传播过程中消费者异质性及社交网络结构成为当前研究的热点与难点。为此,本文通过相关理论分析,首先构建了 De-SHIR 口碑
学位
多模态医学图像是临床诊断的重要参考,由于不同模态的医学图像对各组织突出特征的差异,临床诊断中通常需要综合多种模态的医学图像信息对疾病进行定性评估。为了减小重要模态医学图像的获取成本,跨模态医学图像生成技术至关重要,同时,获取多模态医学图像也是医学图像分割,医学图像跨模态检索等医学人工智能技术的基础。近年来,基于深度学习的医学图像生成方法在各种场景下表现出色,但受限于对多模态医学图像之间的复杂非线性
学位
医学图像报告自动生成技术势必在未来的临床诊断和治疗中普及,它能够大幅度节约医生的工作量,为后续诊断提供更加标准化的依据。随着深度学习研究的深入,模型逐渐趋于复杂导致训练所需数据成倍数增加,尤其在医学领域中数据量小是常态,用大模型训练会产生过拟合现象。同时现有医学公开数据集还存在数据偏差严重的问题(正常样本总是占据数据集的较大比重,而不同症状的异常样本占整个数据集的比重却很小),这使得在利用深度学习
学位
目标检测作为计算机视觉领域的一个重要研究方向,其对目标的定位和识别性能被广泛应用于各个领域,无论是无人驾驶,交通管制还是机械制造,目标检测均做出了应有的贡献。但随着对目标检测的需求越来越高,对检测的性能也提高了要求。当前传统的方法尽管能对目标进行有效识别和定位,但仍存在检测精度低、漏检和误检的现象。因此,基于以上提出的缺陷,先对目前目标检测的各种技术进行综合性的分析和比较,对他们的研究进一步了解。
学位
随着语义技术的发展,许多计算机应用会涉及到图数据,基于RDF的图查询技术在不同领域也有广泛应用,例如社交网络等。此外,由于数据获取中存在固有的误差、噪音,使RDF数据也具备了不确定性,而不确定RDF数据可建模为不确定RDF图。因此,对不确定RDF图的查询也逐渐成为研究热点。不确定RDF图查询的核心过程是子图匹配,而传统RDF图查询算法无法对不确定RDF图进行查询,本文在已有研究基础上,设计并实现了
学位
本翻译实践报告记录的是笔者在宁夏博物馆为两位留学生做陪同口译员的实践任务。本报告以此次实践为基础,结合博物馆陪同口译的特点,以释意理论作为指导,分析了本次翻译实践所遇到的问题及其应对策略。报告的主要内容包括任务描述、理论框架、案例分析和结论四个部分。笔者首先介绍了本次翻译任务的译前准备、译中过程以及译后反馈。随后介绍了本次实践报告的理论框架——释意理论,并以释意理论为基础,对实践中出现的典型案例进
学位