基于深度卷积神经网络的文档复原算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:joui248369
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纸质破损文档的拼接复原问题是完整文档经过外力的作用使其被分解为纸质破损文档碎片,通过将碎片拼接还原为完整文档并且从中获取原始文档所要表达信息的过程。该问题的研究在司法证物的还原,纸质情报信息的获取,历史研究相关文献的修复有着重要的应用价值。本文所研究的是电子文档经过纸质打印后,被有规则的横切和纵切之后的纸质破损文档碎片拼接还原并且获取文档所表达的信息内容的过程,称为有规则的纸质破损文档的拼接复原问题。构建深度卷积神经网络模型的目的是通过神经网络模拟一个分类器,能够从大规模的标记的数据集中学习该数据集的数据特征并保存在神经卷积网络模型之中,同时根据模型学习到的特征对我们的待预测的数据集进行预测其属于哪个分类,其强大的应用能力已经在图像分类与识别领域得到的体现。聚类分析是常用的处理数据的工具,其主要目标将待处理的数据集合根据其特征将其分为不同的类别,根据不同的类别特征,可以对每个类别进行处理,达到降低数据混乱的程度与降低问题需要处理的数据规模的效果。其主要思路一般是将数据集中的数据的特征抽象成“距离”,根据数据集元素间的抽象距离,将抽象距离相近的数据集元素归为相同类别的方法。综合使用深度卷积神经网络和聚类分析来解决规则有横切和纵切的纸质破损文档的拼接复原问题。其主要步骤:首先使用训练深度卷积神经网络模型处在同一行的破损文档的拼接复原,再根据破损文档的特征并提其特征,根据特征使用聚类分析将同行破损碎片进行分类,再然后再对分类完成的破损碎片应用训练好的深度卷积神经网络,来完成每一行破损文档的拼接,而后再人工拼接工作,完成每一行的拼接任务,最终根据每一行破损文档碎片的特征,完成拼接任务。经实验表明,该方法能够加快纸质破损文档的拼接复原进度。本文的主要贡献如下:·提出应用聚类分析根据纸质破损文档碎片所包含的文字的行高与每行文字之间间距相同的特征从而将纸质破损文档碎片归为不同类别以达到将原始问题分解为每个分类类别问题以达到降低问题处理规模和难度的目的。·提出根据纸质破损文档碎片的特征,构造出与破损文档碎片相同特征的数据集,并使用该数据集训练深度卷积神经网络模型并且将训练之后的模型应用到纸质破损文档的拼接复原的方法。·提出解决规则纸质破损文档的拼接复原算法的一般处理步骤并且通过本文实验验证其有效性。
其他文献
网络给我们带来生活、工作的便捷之余,也同样带来了数据泄露、账户信息被窃取等各种安全隐患。随着网络的不断更新迭代,网络安全形势也愈发纷繁复杂,网络入侵检测作为防护网络安全的一种重要手段,近些年来也一直被广泛关注,然而,为复杂和高维数据开发有效的网络入侵检测方法仍然是一个挑战。首先,对结合了压缩网络和生成式模型的网络入侵检测算法深度自编码高斯混合模型(Deep Autoencoding Gaussia
学位
以2012-2020年中国A股上市公司为研究样本,基于中央经济工作会议精神文本与上市公司“管理层讨论与分析”文本构建经济政策关联度指标,并研究其与投资效率的关系。研究发现,经济政策关联度越高,投资效率越高。同时,采用主成分分析法构建公司治理水平的综合指标,研究发现当公司治理水平越高时,经济政策关联度与投资效率之间的正向关系更为显著。此外,进一步研究发现经济政策关联度影响投资效率的渠道主要是政策支持
期刊
随着时代的发展,信息安全被更多人所关注。为保护用户隐私,越来越多的技术采用基于生物特征的验证方法来判断登录者是否为合法用户。在诸多特征选择中,语音因其信息丰富、获取方便等优点具有潜在优势。然而基于语音的验证方法有一定的局限性,如某些说话不便的场所使用语音验证会打扰他人、嘈杂环境下语音质量变差导致验证性能严重下降等。因此,如何拓展说话人验证系统的应用范围、提高噪声环境下语音的质量成为研究关键。为解决
学位
随着Web程序的广泛应用,SQL注入漏洞严重威胁它们的安全运行。二阶SQL注入由于其隐蔽性和阶段触发的特性,目前相关的研究可分为基于隐式融合和基于显式数据源标识的二阶SQL注入漏洞检测防御方法。基于隐式融合的方法无法有效的识别当前注入漏洞是由存储的攻击负载触发,而基于基于显式数据源标识的方法也存在检测类型有限和检测误报率高的缺点。因此本文提出了一种基于静态分析和动态执行的二阶SQL注入漏洞安全分析
学位
行人再识别技术作为智能视频监控网络中的一个重要环节,其目的是通过给出一幅行人图像,在若干个不重叠的摄像头之间找到匹配的行人图像,从而在大规模数据库中快速有效地检索和跟踪特定的行人。该文利用深度学习技术,从如何提取辨别性的特征和跨域的行人再识别上展开研究。首先,针对跨域行人再识别导致的准确率下降问题,构造了迁移互累积学习网络结合Jaccard距离序优化的行人再识别算法。在目标域上利用聚类算法生成硬伪
学位
关于古元延安木刻的风格"转变"问题,研究界多强调1942年延安文艺座谈会的影响及艺术家对群众观点、民间形式的采纳。在这类断裂叙事之外,更值得探究的是古元在这一"转变"背后未曾中断的形式机制,及其在新内容与旧形式之间细腻的、富于创造性的形式改造路径。古元的形式探索真正关切的是,如何构造出富于情感性的艺术"细节"与有条件的"真实",从根本上贴近农民的生活经验、情理结构与身心感觉。但从1945年关于新年
期刊
光学频率合成器可将某一特定波段的参考光(比如光钟信号)的频率特性以设定的频率比值、高保真地传递到其他所需波段,在光钟应用、精密光谱与测量等科学与技术领域扮演着日趋重要的角色。实现光学频率合成器的自动化控制是光学频率合成器走向实用化的关键。本文面向光学频率合成器的自动化控制,针对该系统中参考激光、输出激光的频率自动化控制进行研究。采用单片机作为逻辑控制元件对模拟伺服电路进行控制,从而实现参考激光的频
学位
前列腺癌的早期检测方法主要是通过前列腺特异性抗原检测,但由于前列腺特异性抗原的血清水平会受到前列腺增生和前列腺组织严重炎症的影响,使前列腺癌早期诊断假阳性增高,导致患者进行非必要前列腺穿刺活检的概率增加。因此,本文基于前列腺癌和前列腺增生患者的临床数据,通过机器学习进行特征选择方法的筛选,并构建前列腺癌和前列腺增生预测模型,为临床医生的决策提供一定的依据。前列腺癌和前列腺增生预测模型主要工作如下:
学位
幼儿园的科学教育是发散学生思维的重要手段,幼儿阶段开展STEM教育能够培养幼儿创新精神、增强批判意识。在查阅大量文献的基础上,分析出幼儿园在进行科学教育时出现的症结,认为幼儿教师对STEM教育的理解和运用欠缺、STEM教育在幼儿园科学活动中流于表面、幼儿园对STEM教育在幼儿科学领域的开发不足。因此,结合教师、活动本身和幼儿园三个方面提出以下建议:更新教师的知识观念,提升自身的科学文化素养;切实安
期刊
当今时代,人们因社会竞争日益激烈、各种变化层出不穷而面临着诸多情绪刺激。情绪体验与人们的心理健康密切相关,因此,积极有效地应对情绪刺激,保持良好的情绪体验对人们的心理社会适应至关重要。自我超越近年来受到学界越来越多的关注,尽管这一概念强调减少自我关注,但相关研究却表明自我超越对个体心理健康有着积极作用。在以往探究自我超越对情绪体验影响的研究中,研究者多关注自我超越与抑郁、焦虑等消极情绪之间的关系,
学位