基于融合纹理特征的多文种文档图像文种识别技术研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:fazaizhaoyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今信息暴增的时代,人们在生活或工作中的纸质文档不仅减少而逐渐递增,为了便于存储或处理人们一般把纸质文档转换为电子文档。随着经济一体化步伐的加快,各个国家的交流也日益频繁了,因此光学字符识别(Optical Character Recognition,OCR)系统也变得越发的重要,并在很多方面得到了应用,文种识别是OCR里的前端技术,对OCR系统准确识别文字有重要的意义,从1990年开始研究至今已经取得了不少成果,直到现在还是热门研究领域之一。尽管文种识别研究得到国内外学者的广泛关注,但是目前在该领域中还是没有一个文种数量较多的标准数据库供研究者们使用,因此在本文中建立了大小,分辨率统一的标准的多文种识别图像数据库。每个文种无论是书写方式还是笔画特征等都有所不同,所以各个文种表现出来的特征也不同,针对这类问题,本文提出了基于局部相位量化(Local Phase Quantization,LPQ)特征的文种识别方法,基于脊波变换的多文种识别和基于尺度不变特征(Scale-invariant feature transform,SIFT)的多文种识别方法。为了进一步提高文种识别的效果,本文提出了SIFT特征和方向梯度直方图(Histogram of Oriented Gradient,HOG)特征融合的文种识别方法。本文中所做的主要工作如下:1.创建了用于多文种识别的文档图像数据库,数据库中包含图像大小为256×256的文种有9个,分别是英文、汉文、阿拉伯文、俄文、吉尔吉斯斯坦文、土耳其文和几个国内少数民族文种(蒙文、藏文、维吾尔文)等,每个文种1000张,数据库总样本数为9000张。2.在收集各类文种资料并将其转换为图像时,因环境和纸张的差异等因素会不可避免的引入各种噪声,因此本文通过对图像进行加权平均灰度化、中值滤波、二值化等操作,完成了对文档图像的预处理。3.分别提出了基于LPQ特征和基于脊波变换的文档图像文种识别方法,把样本图像分为训练集和测试集,分别用文档主题生成模型(Latent dirichlet allocation,LDA),K最近邻(K-Nearest Neighbor,KNN),和贝叶斯分类器对特征进行训练和分类,从而实现了多文种文档图像文种识别。同时选取小波变换,灰度共生矩阵(Gray Level Co-occurrence Matrix,GLCM),局部二值模式(Local Binary Patterns,LBP)等特征进行对比实验,实验结果表明本文所提出的方法跟其它三个经典的方法相比具有更好的识别效果。4.分别提出了基于SIFT特征和基于HOG特征的文档图像文种识别方法采用LDA、Bayes、支持向量机(Support Vector Machine,SVM)三个分类器进行训练和分类,该方法能准确地提取文档图像的纹理特征,提高文种识别效果。5.提出了一种基于HOG和SIFT两个特征融合的文档图像文中识别方法,用这两种方法进行纹理特征提取,生成新的特征向量,在LDA,Bayes,SVM三个分类器上进行训练和分类,从实验结果可知本方法跟本文其他基于单一纹理特征的文种识别方法相比,效果最佳,证明了本方法在文种识别方面的有效性。
其他文献
为适应经济全球化和一体化的快速发展,企业寻找出价值链,这种先进的思想应用于实际管理中,由于它能让企业根据外部环境的改变和顾客需求的变化迅速做出反应,从而形成一种超越对手的竞争优势。价值链管理作为企业获取持续竞争优势的有效工具,将其运用于企业营运资金管理领域,从价值链视角审视营运资金管理中存在的不足与问题,既站在整个价值链角度,来统筹营运资金管理,又具体到价值链各个流程,详细考察营运资金的使用情况,
薄板深孔加工是一种无屑、无冷却液的绿色加工工艺。由于孔壁是通过材料热变形而得到的,故金属的流线分布更为合理,机械性能较好。本项目的研究是利用薄板良好的热塑性,通过
作为缆索类型桥梁中的主要承重构件拉吊索,其构成材料主要为钢绞线或高强度平行钢丝。大量的工程实例表明,桥梁在实际的运营中,拉吊索长期处于交变循环荷载和所处环境腐蚀介质的作用,使得拉吊索的力学性能和承载能力下降,严重情况下,可能导致拉吊索断裂的风险。因此,研究交变循环荷载作用后锈蚀拉吊索钢丝的承载能力和剩余疲劳寿命具有重大意义,以保证拉吊索在桥梁使用年限内的安全性,以及在合适的时间内及时更换拉吊索,延
影响乘员舒适性能的主要因素是汽车行驶过程中产生的低频振动,低频振动会给汽车上的设备元件造成疲劳损害,影响使用寿命。在低频振动隔离的研究中,正负刚度并联机构因具有高
目的:通过高流量氧疗(high flow nasal cannula,HFNC)与常规氧疗(conventional oxygen therapy,COT)疗效的对比研究进一步明确HFNC在预防机械通气(Mechanical ventilation,MV)拔管失败中的疗效。方法:(1)筛选序贯COT拔管失败的危险因素:收集2016-07-01至2017-12-31期间宜昌市第一人民医院重症监护病房
进入21世纪以来,肺癌的发病率及病死率在全球各个地区都有不同程度的提升。特别是处于快速发展时期的中国,近年来由于工业的高速发展带来的环境恶化,大气污染等问题,中国肺癌
为了解决钛合金在高温条件下容易发生摩擦磨损及表面氧化的问题,提高其表面的使用性能,拓宽钛合金的应用领域,本文利用等离子喷焊技术,选用纯Ti、纯Cr和纯Ni的混合粉末,在TC4钛合金表面制备原位陶瓷颗粒增强钛基复合材料强化层。对复合材料强化层的相组成及微观组织进行分析,对强化层进行摩擦磨损试验及高温氧化试验,综合评价复合材料强化层。通过等离子喷焊工艺参数的正交优化试验,得到的最优工艺参数为:焊接电流
我国于2018在最新修改后的刑事诉讼法中将认罪认罚制度确立,刑事改革大势下,该制度是为了一开始对我国司法资源进行调整,实现重要案件的以审判为中心从而达成程序繁简分流的目的。为实现刑事辩护普及性,应当思考认罪认罚程序中值班律师角色与功能的实然与应然去定位,认为应当将值班律师定位成具有辩护性、参与性以及专业性的角色,从而实现量刑协商、司法监督和公正保障的功能,赋予辩护人的同等权利,考虑到其存在的阶段应
随着“大众创业,万众创新”的不断深化,中国创业事业不断向更大范围、更高层次、更深程度发展,态势喜人,迄今已形成了主体多元、类型多样、业态丰富的发展格局。创业已成为推动科技和经济结合的重要力量,为培育经济发展新动能,促进实体经济转型升级,建设现代化经济体系提供了有力支撑。在这样的产业背景下,如何构建局部良好的创新创业生态、促进区域协调发展,如何更科学高效地优化资源配置、促进创新共赢,成为当下创业服务
高速铁路无砟轨道在长期服役过程中不可避免出现损伤,为了保证线路安全、稳定的运营,如何对轨道健康状态进行辨识和评估成为关键,而基于车辆动力响应的无砟轨道损伤辨识研究