基于横纵切的模拟碎纸片拼接算法的研究与实现

来源 :佛山科学技术学院 | 被引量 : 0次 | 上传用户:zhdj600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着碎纸机在生活、工作中的应用,碎纸片的拼接复原问题在国家安全和刑侦等领域发挥着越来越重要的作用。但该问题是一个非常具有挑战性的课题,特别是形状相似、颜色单调、尺寸小、数量多的横纵切碎纸片。当前解决该问题的基本思路是:先进行聚类分行、再进行行内拼接,最后进行行间排序。但是在聚类分行实验中发现,当前算法的聚类结果不仅精度不高,而且不与给定文档的切割行数线性相关。其次,当前的行内拼接算法,仅使用了碎片的左右边缘信息,导致碎片的拼接精度也不高。本文首先通过模拟文档切割,发现各行碎片的文字行位置存在一定的数学规律,进而,我们基于文字行位置规律与真实行高不一定为整数个像素值的特点,设计出K-simulation聚类分行算法。算法首先通过所有碎片找出行高与字高的整数值,通过文档左侧的空白特点提取出文档的最左侧列碎片;然后,根据参数建立的碎片模拟列向量,根据最左侧列碎片提取出碎片的特征列向量,进而,两者进行匹配,通过迭代参数、比较匹配和,尽可能地找出碎片的真实行高;最后,根据行高、字高等参数,模拟出碎片的聚类中心,完成碎片的聚类分行。在完成碎片的聚类分行与行间排序基础上,针对上下边缘存有文字信息的碎片,我们设计了基于碎片多方向信息的“多排扣”的行内拼接算法,进一步,针对中文碎片,我们结合中文宽度的一定性,设计出“多排扣+字宽”的行内拼接算法。实验表明,聚类结果不是只与切割行数及噪声有关,而是由切割行数、碎片高度、文字行高及噪声等共同决定的。其次,在碎片的聚类对比实验上,无论是单文件碎片还是同类型的双文件混合碎片,我们的方法均优于当前较先进的方法,且额外给出了各行碎片之间的顺序,同时,通过同种类型文档的双文件混合碎片的聚类示意图,我们得到同类型多文件混合碎片相比于单文件碎片,聚类结果受各文档的K值影响。然后,在行内拼接实验上,我们的方法也优于贪心算法,且随着切割行数的增大,拼接精度可进一步提高。最后,针对横纵切碎纸片拼接领域公认的数据集,我们算法依然表现出良好的性能。
其他文献
大规模风光并网在带来经济效益的同时也给电网安全稳定地运行带来了冲击,合理的电力系统优化调度有利于解决该问题。电力系统优化调度问题本身具有不确定性、多约束和非线性等特点,传统优化算法在解决这类问题时往往不能取得令人满意的效果。智能优化算法不依赖于优化问题的数学模型,在处理复杂优化问题时能够得到较为稳定的解决方案,为解决电力系统优化调度问题提供了新的解决思路。粒子群算法(PSO)和差分进化算法(DE)
学位
文本和图像是日常生活中使用最为频繁的信息载体,而文本图像生成就是从描述性文本中提取特征信息,并在理解语义的基础上去生成足够逼真、多样性好且符合文本描述的高质量图像的跨模态关联任务。目前主流的解决方案是生成对抗网络的变种模型,如注意力生成对抗网络AttnGAN,已经在多样性、清晰度和语义一致性方面取得了良好表现,但真实性还有较大的进步空间。为了解决生成图像真实性不足的问题,本文在自监督学习领域中的对
学位
随着社会的发展,越来越多的用电设备如数据中心、医疗设备等不仅需要电源的不间断供电,还对电源质量提出了更高的要求。因此,在线式UPS(Uninterruptible Power Supply,UPS)在市场中得到了广泛的应用。逆变器作为UPS系统的主要组成部分,解决其输出电压不平衡具有重要的现实意义。本文依托“广东省高校大功率高可靠电能变换与控制科研创新团队”(2018GKCXTD003)项目,以提
学位
信息几何作为研究统计学和信息论而发展的新的理论体系,将信息论与几何方法相结合,通过构建流形挖掘数据的几何结构特征,为雷达目标检测提供了新的理论方法。本文基于信息几何的雷达目标检测方法,以增强流形上目标与杂波差异性特征为目标,研究流形上的目标增强检测问题,提出了增强检测的新方法,为进一步改善复杂背景下的目标检测性能提供可靠的理论方法和技术途径。第一章的绪论强调了研究复杂背景下目标检测新方法的需求,简
学位
随着科技的发展,机器人技术在工业上得到了广泛应用。机器人取代人来完成工业生产过程中的物体抓取、打磨、装配等工序时,不但要求工业机器人具有高精度的位置控制,而且还应具有与外部约束环境良好交互的功能。本文针对国产华数牌603(HSR-JR603)型六自由度工业机器人设计了一套主动柔顺装配系统,并实现轴孔高精度柔顺装配。其主要工作内容如下:首先,建立了机器人运动学模型和轴孔装配模型,并进行了仿真分析与验
学位
随着社会的发展,电能需求持续增长,新能源逐步开始应用,由于直流微电网在新能源的接入与使用方面具有优势,得到了研究学者的关注,直流微电网相关的控制与保护技术成为研究热点。在工程领域,直流微电网建设项目发展落地,但是直流微电网的过流误动问题制约了其发展的步伐。直流微电网中存在并网换流器,具有大电容,且母线线路阻抗较小,因此线路发生故障后,故障电流上升快,传播范围广,容易导致保护误动。在工程中通过安装电
学位
随着“新零售”概念兴起,以售卖饮料、零食等快消品为主的无人零售终端正成为智慧零售领域的热点。近年来随着深度学习、计算机视觉和以大数据为驱动的人工智能不断取得突破,为商品自动检测与识别提供了技术理论基础,使得基于视觉目标检测技术的商品结算方式成为可能。因此,本文以商品快速检测与准确识别为研究目的,以瓶装饮料商品为对象,研究基于深度学习与计算机视觉的商品检测识别方法以及改进与实现。本文以无人售货机售卖
学位
IPSec被提出后经过不断完善与修改,在各个领域保障网络安全方面发挥重要作用。目前网络安全管理的核心是基于网络安全策略的管理方式。由于网络的飞速发展,网络普及性及用户量急剧增加,网络管理中的网络安全策略数目也急剧增加。在复杂多样的策略规则中出现策略冲突的概率也随之增加。一种有效快速检测出策略集中存在的策略冲突的方法成为现在研究的重点。本文围绕这个问题在以下三个方面进行了研究:一、在策略冲突检测方面
学位
能源是经济发展的基础和动力。它是一个国家经济繁荣的最重要的决定因素之一。一个经济体要实现可持续的经济增长,就需要以最具成本效益的方式获得所需数量的能源。在土耳其,由于经济发展、人口和消费的增长以及境内自然能源的稀缺,对能源的需求不断增加,这种能源需求是通过进口能源来满足的,而不是创造和依靠本国的能源,如可再生能源。本文首先对世界能源形势和现状进行了概述,然后对土耳其能源的特点和现状进行了详细的分析
学位
时间序列数据是指按照时间先后顺序进行排列的数据点序列,简称为时序数据。多维相关时序数据是指包括了时间戳、空间位置、多因素三个维度特征相关的时序数据。随着社会科技的进步,人们在生产生活中监测并记录了大量的多维相关时序数据。因此,多维相关时序数据的分析和预测方法一直是学术研究热点,并在现实场景中发挥了重要的指导意义。例如,在气象预报、环境管理、食品安全等多个领域中,深度的数据分析和及时的数据预测可以为
学位