大规模甲骨文数据集构建及算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:teliek
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
甲骨文是源自中国的古老文字,与古埃及的象形文字、古印度的哈拉巴铭文、古巴比伦的楔形文字并列为四大文明古国的文字文明标志。甲骨文的研究从1899年首次发现从未停止,然而甲骨文研究相当依赖古文字专业人员。当前甲骨文领域待解决的问题仍有很多,如甲骨缀合、字迹鉴定、未释字破译,语义分析等。目前已发掘出土甲骨共十五万余片,因年代久远甲骨比较脆弱,颠沛流离过程中易破损等等,极少有人可以直接接触甲骨,拓本图像具有及其重要的作用。绝大多数甲骨文研究者都是基于拓片图像进行相关研究。随着计算机的发展,甲骨文研究有了字库、输入法及大量的摹本资料等等。本文旨在构造一个大规模的甲骨文基准数据集并开展相关的甲骨文识别算法对比实验,验证已有算法的性能与优缺点。已有的甲骨文识别算法所使用的数据来源于甲骨文数据库提取部分文字对应的少量图片样本或者人工生成数据集,文字图片背景较为单一,类别较少,噪声较少,无法将其研究成果直接应用于实际场景。而实际甲骨文拓片中的文字类别较多,仅可释字就有1500-2000字左右,还有3000左右的未释字。数据分布极度不均衡,部分文字出现频率极低。另外龟甲本身纹路、占卜过程中烧灼产生的裂纹、保存过程中破损、拓印技术的好坏等等多种原因造成拓片中噪声比较严重,且部分文字残损。基于此现状,本文研究内容分为以下三个方面:一、基于拓本图像,构建了一个按字标注的甲骨文基准数据集。该数据集可进行甲骨文检测与识别的相关研究。实验证明使用深度学习算法在六千余张训练样本的情况下可以取得较高的检测准确率,但识别准确率较低。二、在构造甲骨文数据集和基准实验的基础上,进行了两个较小的改进工作:第一:改进基追踪降噪算法。在简单基准实验的基础上,确定了稀疏表示算法是解决甲骨文识别任务的有效方法。在此基础上改进基追踪降噪算法的支持集更新方式,使其在小样本数据集中准确率得到提升,适用于强噪声多类不均衡样本的文字识别,在较少的特征数目下取得较高的准确率。实验结果表明,改进后的基追踪降噪算法取得比深度学习算法及基追踪降噪算法更加优异的结果。并在准确率、运行时间、资源使用率三方面达到均衡。第二:将批处理策略应用于非负二次规划活动集算法。为了解决基于稀疏表示的非负二次规划活动集算法在样本量过大时占用内存过多而造成内存溢出的问题,本文提出将批处理策略应用于非负二次规划活动集算法并设计多个分类器,取最优分类器实验结果作为最终预测准确率。实验证明,批处理非负二次规划活动集方法在解决样本量过大内存溢出问题的同时,在部分数据集上性能比原始算法更加优越。三、在此基础上,进行了基于非稀疏表示、深度学习和稀疏表示三类算法共33种算法的实验对比分析。根据算法准确率和运行时间等条件筛选出13种算法进行15个数据集的大规模实验并分析其准确率、运行时间和资源利用情况等以探寻最适合甲骨文数据集的算法。
其他文献
随着世界石油和化学工业的迅猛发展,由此而引起的重大火灾事故相继发生,其中汽车加油站火灾爆炸事故已经成为石油化工行业的重大危险因素。因此,搞好汽车加油站消防安全管理是一
大学生创业既能够实现创业者自身的就业,又可以吸纳其他求职人员,增加更多的就业机会,是解决目前中国大学生就业难问题的有效途径。理论界学者们深入探讨财税政策扶持大学创
<正>寻常巷陌里,一位衣着朴素的词人远去了,带者婉约的精华,消失在了茫茫人海之中……手上是几道宋词的赏析题,要说看不懂,那是不可能的。这么美的一首词,如今被我们解剖成
期刊
目的进一步了解混合溶液乙醇浓度对其CT值的影响,探讨硬化治疗改良法的临床价值。方法实验研究组:将医用无水乙醇按比例分别与生理盐水(a组)和肾囊肿囊液(b组)配成不同浓度(0%~100%
目的探讨人工流产术后放置宫内节育环的时机,分析其效果。方法选择我院就诊的拟行无痛人工流产术后放置宫内节育环的66例患者,按就诊顺序随机分为研究组(Y组,33例)和对照组(D
<正>车型:君越2.4,LE5发动机。行驶里程:93593km。故障现象:有时烧冷却风扇保险丝。风扇2保险丝(20A)有时被烧断,烧断后低速时两个风扇都不转,高速时只有左边风扇转(如图所示
目的探讨硫酸茯苓多糖(SP)是否通过调节α-氨基-3-羟基-5-甲基-4-异恶唑丙酸(AMPA)受体的表达而生产抗抑郁作用。方法实验设假手术组、抑郁症模型组、SP(25,50和100 mg&#183;
目的探讨红外线照射对外周中心静脉置管术(PICC)后无菌性静脉炎的预防与控制效果。方法对122例行PICC术的住院患者,随机分为两组,对照组PICC术后患者给予常规护理,试验组PICC
在新时代,以习近平同志为核心的党中央站在全局的高度,将底线思维进一步运用于中国特色社会主义的伟大实践。深入分析习近平底线思维观的发展逻辑,全面探究习近平同志对底线
目的探讨急性心肌梗死(AMI)患者外周血游离中性粒细胞胞外诱捕网(NETs)水平与短期预后的关系。方法选择2018年1月至2018年7月期间发病并于发病后12 h内入院的AMI患者121例为