基于层级匹配的维吾尔文文档图像关键词检索

来源 :新疆大学 | 被引量 : 0次 | 上传用户:mingxingc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机视觉、多媒体技术的飞速发展和广泛普及,各类数字图像信息日渐增多,越来越多的纸质文档以文本信息的特殊数据形式文档图像来承载。与纸质文档相比较,文档图像易于存储、管理和传输,并且不易被篡改伪造,已经成为日常工作和生活中不可缺少的信息存储方式。因此,如何对日益增多、种类丰富的文档图像进行有效的管理、精确的检索成为当前的研究热点。针对纯文本文档图像,本文提出了一种基于由粗到细层级匹配的关键词文档图像检索框架,并将其应用到维吾尔文文档图像检索中。本文所做的主要工作如下:(1)建立纯文本版面的维吾尔文文档图像数据库。共包含2414张,尺寸为716像素*1011像素,深度为8的*.bmp格式的维吾尔文纯文本文档图像。(2)文档图像预处理操作。对采集的原始文档图像使用加权平均值法灰度化、最大类间方差法二值化、双边滤波法去噪和Hough变换倾斜校正进行预处理,对单词图像使用Zhang细化算法提取骨架信息。(3)文档图像切分为单词图像。提出形态学膨胀与积分投影相结合的方法实现维吾尔文文档图像的单词切分,并根据切分单元阈值的设定过滤单词图像之外的无关图像单元。(4)改进基于关键词的文档图像检索方法。提出了由粗到细层级匹配的检索框架实现基于关键词的维吾尔文文档图像检索。在粗匹配时采用基于距离特征的模板匹配方法,在精确检索时融合单词图像梯度方向直方图(Histogram of Oriented Gradient,HOG)特征和单词骨架梯度方向直方图(Thin-Histogram of Oriented Gradient,T-HOG)特征,采用支持向量机(Support Vector machine,SVM)分类器训练特征数据实现关键词精确检索。本文使用10个常用关键词在随机抽取的108张文档图像中进行检索实验,准确率平均值为91.14%,召回率平均值为79.31%。结果表明该方法能有效的实现基于关键词的维吾尔文文档图像检索。
其他文献
随着风电场的快速建设,经济有效的风能汇聚和传输方式日益受到关注。传统的交流风机对电能转换需要经过AC/DC-电解电容-DC/AC等过程,且需要采用庞大笨重的工频变压器升压结构,因其存在转换级数多,换流损耗高等问题而不利于小型或者分散式风电场的建设。因此,对先进的直流变换和直流风机进行研究,直流风机内部转换级数较少、机组输出为直流电,直流机组相互连接进而形成直流型风电场。本文从以下几个方面对直流风机
学位
红火蚁(Solenopsis invicta Buren)作为一种危害严重的外来物种,原产于南美洲巴拉那河流域,在近一个世纪的入侵历史里在全球范围内对各被入侵地的国民经济、生态平衡、居民生命健康均造成严重危害。本研究在系统的研究了红火蚁在惠东的发生分布情况的基础上,结合实际情况指出现阶段惠东县红火蚁疫情防控面临的5个问题,探讨统防统治防控模式在控制红火蚁疫情扩散蔓延中的推广应用效果,并就当前惠东红
学位
风力发电具有环保无污染、装机容量灵活、建设周期短等优势,成为目前备受关注的新能源利用形式。但是,风力发电也具有受环境因素影响大、输出功率不稳定、可控性差的缺点。将不稳定的风电输出功率直接并网会给大电网造成冲击、影响电网的安全稳定运行和电网的整体电能质量。随着储能技术的成熟与应用价格的降低,储能技术开始被广泛应用到风力发电之中。储能技术可以将暂时无法利用的能量储存起来,当外界需要能量的时候将能量释放
学位
应“十三五”规划要求,我国新能源发电迅猛发展,越来越多的大规模风电场并网,给电力系统的安全与稳定运行带来诸多挑战。由于风电场风速突变异常、电力电子设备故障运行、电网故障运行对风电机组的影响等都可能使风电场输出的电流、电压波形产生畸变。风电场并网运行中,风电场谐波/间谐波可能在并网点(PCC)处注入电网后在电网各节点传播与耦合,严重影响电力系统电能质量,甚至对电力系统的安全稳定运行造成威胁。因此,研
学位
散棉纤维具有优良的吸湿保暖性,被制成的色纺纱因色泽柔和、层次感强倍受消费者的青睐。但是散棉碱氧煮漂工艺会使纤维强力损失严重、纤维集结成块,使色纺纱在加工过程中有制成率低、高支纱线的成本高等弊端,极大地影响了色纺纱的加工。为了解决石河子如意纺织服装公司在色纺纱损伤强力的问题,本课题将煮练酶应用到散棉纤维的一浴煮漂,通过短流程降低散棉的损伤,提高活性染料的固色率,降低散棉废水特征污染的含量。1.研究了
学位
李达是一位马克思主义百科全书式的重要人物。他不仅是我国著名的马克思主义哲学家、理论家和宣传家,而且也是杰出的马克思主义教育家。新中国成立后,李达先后担任湖南大学和武汉大学校长,开展了一系列的马克思主义理论教育实践活动,积累了在社会主义大学开展马克思主义理论教育的经验方法。深入研究新中国成立后李达的马克思主义理论教育思想,总结新中国成立后李达开展马克思主义理论教育的历史经验,有助于进一步深化我们对马
学位
风力发电和光伏发电是目前发展较迅速的清洁能源,对各国节约能源和降低污染物排放有着非常大的作用。然而,风力发电和光伏发电容易受到外界影响,具有很强的间歇性和波动性,使得风电场和光伏电站出力发生波动。这对风光发电的并网产生不良的影响,甚至能够导致电网崩溃问题。随着储能技术的发展,可以利用一定容量的储能设备解决新能源出力波动的问题。考虑到储能系统具有大功率密度和高能量密度的优点,所以常常采用不同的储能设
学位
随着移动机器人应用的广泛性,其路径规划技术已成为近年来人们研究的热点,移动机器人路径规划是复杂的、非线性的、以环境为条件约束的问题。移动机器人路径规划分为全局路径规划和局部路径规划,本文针对静态环境下的移动机器人全局路径规划,主要做了以下工作:(1)对灰狼优化算法(GWO)的精确性、稳定性与收敛性等性能进行分析,将GWO与遗传算法(GA)和粒子群算法(PSO)做了对比得出GWO的精确性和稳定性在很
学位
大规模变流器接入弱交流电网可能发生次同步振荡。次同步振荡频率低于电网工频,对电力系统的安全稳定运行构成了一定的挑战;而变流器接入弱交流电网产生的新型振荡还具有散播范围广、振荡频率时变等特征,控制抑制较为困难,因此深入探究新型次同步振荡的产生机理并研究振荡抑制方案具有重要意义。本文以环路带宽为突破口,探究了多变流器并联接入弱交流电网的戴维南等效电路,分析了多机并联、电网强度等因素对机网系统的稳定性产
学位
鉴于我国富煤贫油的能源状况,发展煤的清洁利用十分重要。2019年中低温煤焦油(LCT)的产量达900万吨,LCT主要用于加氢制清洁燃料油,从而缓解我国原油供需缺口。但是,高沥青质含量的LCT给其加氢利用带来了诸多困难。特别是,LCT沥青质中含有较多结构复杂和极性不同的氧、氮、硫(O、N、S)杂原子,导致LCT的加工利用受到限制。所以,本论文采用傅里叶变换离子回旋共振质谱(FT-ICR MS)结合电
学位