复杂的中文文档图像版面分析研究

被引量 : 0次 | 上传用户:jsj19871027
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
光学字符识别(OCR)是一种实现文字自动输入的快捷省力方法,广泛应用于网上资源数据库和数字图书馆的建设。作为OCR进入自动化阶段的首要步骤,版面分析的正确性直接影响到系统输出结果的语义关系和逻辑关系。在各种文档图像中,由于中文文档图像背景、排版的复杂使得版面分析比西文版面难度大。因此对中文版面分析的研究具有重要的理论意义和实用价值。针对现有版面分析中所涉及到的图像倾斜检测、版面分割以及纯文本版面分析等算法容易受版面复杂度影响,本文根据中文版面特点,对中文文档图像版面分析算法进行了深入研究和大量实验,并取得了如下成果:1.现有的最近邻方法进行文档图像倾斜角计算时,由于被选择的最近邻对可能是错误的,导致计算出的倾斜角与实际角度相差较大。本文提出的基于改进的最近邻链方法,根据判断相似连通区之间同行或同列,构造两类相似k最近邻链表,避免了错误的最近邻链对计算角度的干扰,提高了计算倾斜角度的精确性。2.针对传统的游程平滑算法对平滑阈值选取敏感的缺点,提出了基于选择性连通区游程平滑算法,根据区域内、区域间连通区大小、距离特性进行阈值选取,克服了传统游程平滑算法对字体大小、字符间距、图像区域的依赖性,单一背景文档图像版面分割效果得到明显改善。3.已有的复杂背景的彩色文档图像分割算法普遍存在提高运行时间与分割正确率相矛盾的缺点,本文通过改进灰度化算法和基于边缘图像的动态聚类分割方法,克服了灰度化过程时文字区域颜色信息丢失并且仅对边缘图像进行处理,在提高版面分割速度的同时不会降低版面分割正确率。4.现有阅读顺序未知的复杂纯文本图像版面分析算法对参数选取具有敏感性和弱适用性,对此提出了基于SVM区域构造的版面分析算法。算法选取种子连通区作为测试的第一特征逐步构造区域,之后用投影法决定区域内阅读顺序。实验结果表明,提出的方法具有更好的适应性,对复杂的中文版面有满意的分析结果。
其他文献
随着服务经济的到来和网上购物市场的迅猛发展,服务营销领域中的电子服务质量课题引起越来越多的学者的关注。然而,有关电子服务质量前因的研究在国内外学术界尚处于空白。在
随着我国经济发展水平的不断提高,城市化进程不断推进,城市各项生产建设也在加速开展中,人们对城市河道也有了更深刻的认识,对城市河道水质的保护、生态建设非常迫切。本文将
学术论文增强出版自2009年首次出现以来,历经了关联链接、结构化增强、补充增强3个发展阶段。学术期刊的微信公众平台提供了适合论文补充增强出版的平台。文章分析学术期刊利
习近平关于构建人类命运共同体的理念是在世界处于大发展、大变革、大调整的背景下作出的,是对中国以及中国与世界的未来的思考,是对人类未来发展的展望与期许。在构建人类命
钱江潮涌,无有止息。“十二五”以来,杭州主动适应和引领经济新常态,作出了大力发展信息经济、推进智慧应用,实施“一号工程”的战略部署,坚定不移打好转型升级的组合拳,服务
在品牌专卖经营模式的供应链中,供应商为供应链的领导者,零售商为跟随者,供应商在同一销售区域中会采用统一的零售价格政策。当供应商采取协调机制时,零售价格也是其决策变量之一
随着我国教育体制改革的不断推进,传统的教学模式已不能适应教育事业的发展需要。针对传统高职院校教育教学模式的现状和存在的问题,本文提出了体验式教学模式,简要阐述了体验式
为国民经济各行业提供技术装备的战略性产业的装备制造业不仅是产业升级、技术进步的重要保障也是国家综合实力的集中体现。经过50多年的发展,尤其是改革开放后的三十年,我国
经济发展,教育先行;民族振兴,教育先行。实现教育在教学过程中的现代化,是实现伟大“中国梦”的重要条件之一。本文对加快推进教育现代化进行了探讨。 Economic development
<正>常德市第十四中学始终重视以生活技能为基础的安全教育,成立了安全工作小组。每月开展一次防地震、防火灾、防踩踏等应急疏散演练;每月至少开设两节安全教育课;开展以"关
期刊