文档图像识别中关键算法的研究与实现

被引量 : 0次 | 上传用户:yxws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今时代,网络和多媒体技术迅猛发展,在促进了信息交换的同时,也带来了对信息的巨大需求。光学字符识别OCR作为计算机信息录入的一个重要技术,也得到了飞速发展。文种识别作为OCR技术的前端和基础,同时也是自动化处理工作中的重要部分,近年来得到了广泛的关注与研究。本文设计和实现了一个文档图像的文种识别系统,主要研究工作有:(1)课题背景。图像信息是人类认识世界的重要知识来源,国外学者曾做过统计,人类所获得的外界信息有70%以上是来自眼睛摄取的图像。人们把研究对象从模拟领域延伸到数字领域,于是产生了数字图像的概念。(2)图像去噪。介绍了几种图像去噪方法和二值化方法,并通过梯度调整改进了最佳熵阈值分割二值化算法,实验证明这种改进的算法使目标边缘细节信息不易丢失,减少了出现线段断裂以及丢失的情况。(3)图像预处理。预处理是图像处理中一项很重要的工作,预处理的质量直接影响后续工作的效果和成败。本文着重介绍我们改进的Hough变换方法,用于文档图像的倾斜校正。这种算法,通过以下措施减小了计算量:采用合适的量化角度,减小量化步长:选择子区域取代完整的图像,减小待处理的数据量:选取特征点集而不是处理区域全部像素,进一步减小待处理的数据量。最后,为了提高图像质量,不是简单地旋转而是用像素面积插值法进行倾斜的校正。(4)版面分析。版面分割与区域识别是将版面进行空间划分,生成若干包含不同数据类型的区域。该算法首先将版面划分为图像、图表和文本等多个层次,先对版面中的图像层和图表层中的主要线段分别进行提取,再利用连通区域法对文本层进行分析,通过文本模糊、边缘检测、段落提取、投影周期性的判断,对图形、表格与文本各部分加以区分。可以看出,该算法将版面分割与区域识别相结合,提高了算法的效率。
其他文献
近年来,租售同权模式在市场中逐渐被认可,该模式强调房产权力在租赁市场与买卖市场中具有同等的效益。但纵观现有研究,鲜有关于其对房地产投资影响的研究。为此,本文基于租售
褐飞虱[Nilaparvata lugens (St?l)]是一种世界性害虫,对水稻为害严重。本文以农药、低温等外界因子对褐飞虱的影响组建褐飞虱实验种群生命表,探讨农药对褐飞虱再猖獗的影响
本文针对我国民营企业财务治理问题进行研究,首先回顾了民营企业的发展历程,接着分析了我国民营企业目前存在的问题,指出可以从财务治理入手来解决制约我国民营企业发展的公
ISO9000族标准是各国质量管理和质量保证理论的普遍性总结,统一了质量管理学的原理、方法、程序,反应了世界上技术先进、工业发达的国家质量管理的实践经验,因此具有普遍的实
装备制造业是国民经济发展的基石,该产业的技术进步是我国走新型工业化道路所必须面对的重要课题。本文在新增长理论框架下分析了中国装备制造业技术进步的机理,并在此基础上
图像表示方法在计算机图形学、图像处理、模式识别等研究等领域内具有重要的研究意义。图像的三角网格表示模型借助于计算几何中的三角化思想,能有效地对图像进行表示,而且其结
本文旨在探讨利率变动周期对我国上市商业银行的绩效影响。笔者从利率市场化的演进着手,对我国目前的几种市场利率进行了介绍和比较分析,并选取出作为本文实证研究阶段的可用
本文对银杏葡萄酒的发酵工艺、澄清下胶工艺、香气成分进行了初步研究。利用银杏叶提取物和葡萄醪共发酵方式研究不同加入量的银杏叶提取物对葡萄酒发酵、抗氧化性、酚类物质
本文研究席勒在中国的译介过程及其影响,选取的时间范围从晚清时期,即席勒进入中国起,直至现今(1840-2008)。早在晚清时期,席勒就被作为德国与歌德齐名的文学家被介绍到中国
本刊讯“有了这个APP,就像多了个‘家’,所有党员随时可与家人(支部党员)沟通交流。”广元市苍溪县陵江镇东城社区党支部书记黄勇兴奋地说。近日,由四川移动通过“互联网+”方式创