基于版面分析的文档图像检索算法研究

被引量 : 0次 | 上传用户:m109bowen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机和互联网的诞生引发了信息技术革命,使得大量电子文档涌现出来,实现了信息交换的高速化、信息的海量存储和信息检索,同时也使得信息的长期保存得以实现。相对于传统的纸张文档而言,电子文档具有占用存储空间小、检索方便、传输快捷、更新简便等优点,而且电子文档还可以进行必要的保密编码,提高其可靠性。在海量图像库中检索用户所需要的图像,成为当前的研究热点。文档图像有别于一般的自然图像,它以文字为主,其中夹杂图像、表格的一类特殊的图像。一般是以工作文件的形式存在的,应用十分广泛。因此文档图像检索得到了广泛关注。纸质文档经过扫描生成文档图像之后,需要经过字符识别工具识别其中有用的信息。光学字符识别OCR(Optical Character Recognition)技术的出现及成熟使得电子文档的使用和处理得到广泛的应用,提高了文档处理的效率。作为印刷体文字识别系统重要组成部分的文档版面分析,具有与字符识别同样重要的地位。OCR技术是模式识别中开展比较早的一个领域。经过几十年的发展,已经比较成熟。版面分析是OCR系统进入自动化阶段的首要步骤,版面分析结果的有效性直接影响到文字识别模块的运行,进而影响整个系统的效率,因此设计高效的版面分析系统,对提高整个OCR系统的质量,起着十分重要的作用。详细的来说,版面分析是指对版面内的图形、图像信息和结构关系所进行的自动分析、识别和理解的过程。图像检索的过程包括提取图像的特征,对提取的特征进行特征匹配,利用距离度量方法比较图像的相似度,根据相似度对检索出的结果进行降序排列,将符合条件的结果输出给用户。其中特征提取和特征匹配是检索技术的关键。文档图像具有诸如标题,段落,行等版面特征。在不使用昂贵的OCR技术方法进行文字识别,直接作用在图像数据的情况下,我们借鉴图像的版面特征的分析方法,将此方法用于传统的基于内容的图像检索技术上来,提出了从文档图像的文本区域的版面中提取出行特征,将提取出的版面行特征作为索引项,进行图像的特征匹配和相似性度量工作,从而形成了一个新的检索特征的检索算法,将算法实际应用于图像匹配和识别上,并有一定的识别效果。本文操作的对象是文本区域,因此在提取特征之前,利用版面分析方法分析文档中是否含有图像、表格等非文本区域,通过非文本区域滤波方式将这些区域进行过滤,保留文本区域。正因为如此限制了此方法的适用范围。对于复杂版面的文档图像没有涉及,如含有横排、竖排,以及横排和竖排混合的版面,应用范围相对比较窄。匹配技术是文档图像检索技术中的核心技术,它主要是从文档数据库中给出输入图像的最佳匹配。匹配技术建立在特征定义及其提取基础之上。衡量两个版面相似性度量的距离度量方法有很多。本文的特征匹配使用点模式匹配,建立在行特征基础之上,将行线抽象为空间中的点,点的灰度值定义为行线的长度。使用中心点加权平均方式找出图像的中心点,然后计算其相对坐标。使用差异能量来进行图像的相似性匹配。所用的点模式匹配时间复杂度相对比较高,还需要进一步改进。
其他文献
随着国家对路网工程项目管理和审计力度的加大,对相关财务人员的财务管理工作提出了更高的要求。作为有着十几年财务管理工作经验的笔者,将于下文对路网工程项目的独立核算、
<正>在当前的小学数学教学中,很多教师只是注重对数学知识的讲解,并没有意识到培养学生数学应用能力和解题能力的重要性,这样导致了学生在思维拓展方面受到了很大的限制。新
水利工程项目和人们的生活息息相关,同时也能够有效的带动国民经济的发展。近年来,随着我国水利工程项目的不断发展,人们对中型水库除险加固工作的重视程度也越来越高。中型
2014年9月17日,美国联合发射联盟公司(ULA)与蓝源公司(BO)正式宣布开展合作,为宇宙神5火箭研制新型发动机。这是美国大型航天企业与私人资本相结合、推动美国航天与国防产业
离子束溅射以其出色的工艺稳定性、制备的薄膜性能优越等优点,已成为制备高性能光学薄膜的重要手段。本课题在实验室自制的设备上对离子束溅射的工艺进行了系统研究,对在不同
近年来,以肾脏肿大、苍白、肾小管充满尿酸盐的“花斑肾”为主要病理变化的肾型传染性支气管炎(以下称肾型传支)流行比较广泛,蛋鸡育雏中后期和肉鸡群出栏之前一段时间内发病和死
患者 ,女 ,5 3岁 ,因将双嘧达莫 (潘生丁 )药瓶说明中“mg”误为“片”的意思 ,于当日上午 11∶30一次性误服双嘧达莫片2 5片 (6 2 5mg) ,约 2 0min后逐渐感心悸、出汗、面部烧灼感
一、谈判谈判是谈判双方或多方为实现各自的目的所进行的沟通和说服的过程,所以我们在谈判时主要包括以下几个方面的问题.
生育酚、植物甾醇和谷维素是植物油中常见的脂质伴随物。它们能够有效延长油脂的氧化稳定性。然而伴随物含量与油脂抗氧化能力之间是否存在量效关系,各伴随物间是否存在相互作用尚未明晰。鉴于此,本论文选择α-生育酚、植物甾醇和γ-谷维素三种典型脂质伴随物,利用Bliss相互作用评价模型研究三者在无水乙醇、乙酸乙酯以及脱除伴随物稻米油中清除自由基相互作用类型及机理。研究内容如下:首先,在无水乙醇介质中,初步探究
月球探测器近月面定点悬停是月球探测器实现月面软着陆的必要保证。提出一种近月面定点悬停的控制方案,选用常推力液体发动机和脉冲式发动机实现悬停任务。对于常推力液体发动