面向非纯文本文档图像的检索技术研究与实现

来源 :西南大学 | 被引量 : 0次 | 上传用户:jitlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子信息化进程的加快和互联网的快速发展,图像资源正海量的增长。越来越多的文档以图像的形式进行存储。文档图像中除了纯文本文档图像和纯表格文档图像外还有很多在文本中包含表格或图像的文档。如何对这些非纯文本内容的文档图像进行检索值得进行深入的研究。针对纯文本文档的检索技术主要提取与文本或字符有关的特征,这些特征对于文本中有表格或图像的文档图像则不适用。针对表格提取的特征同样不适用于文档中的文本部分。对于文本占主体同时包含表格或图像的文档图像,充分利用文本部分和非文本部分的特征,并且把两部分的特征很好的结合起来才能有效的表达图像。本文提出综合文档版面分析、全局特征以及局部特征的方法对文本图像进行特征提取和检索。在特征提取前首先对文档图像进行预处理。由于种种原因,文档以图像存储时可能会产生噪声或发生倾斜,这些干扰将影响到文档图像的特征提取,因此对文档图像进行预处理很有必要。本文通过对文档图像预处理的研究,对文档图像进行二值化、去噪、倾斜校正操作,使得文档图像便于特征提取。在特征提取时,分析文档的版面特征,把文档分为纯文本文档、包含表格的文档和包含图像的文档。针对纯文本文档和非纯文本文档中的文本部分,提取全局段落特征和局部像素特征;针对非纯文本文档中的表格部分,提取其相对空间位置特征和表格单元格框架特征;针对图像部分提取其空间位置特征和投影直方图特征。然后将所提取到的特征相结合作为文档图像的综合特征,以此作为对文档图像检索的依据。检索前,把图像库中文档图像的特征按文档类型的不同存到相应的特征库中。在检索时,根据文档的类型,把提取的文档图像特征与特征库中相应类型的特征进行匹配,根据特征向量之间距离的大小检索出最相似的图像。实验时分别对纯文本文档、包含表格的文档和包含图像的文档三种类型的文档进行检索,通过与针对文本文档的检索方法和针对表格文档的检索方法进行对比,实验结果表明:通过对文档进行版面分析并把文档分成不同的类型,然后针对每一种类型分别提取全局和局部特征,最后对提取的特征进行综合的方法对非纯文本文档的检索有较高的正确率。
其他文献
随着大数据时代的到来,Internet时时刻刻都在释放出海量数据。信息的日积月累,无论是围绕着企业的商业决策,还是个人的生活消费习惯等信息,都变成了以各种各样形式存储的数据
随着最近这些年以来,计算机图形学技术的高速发展,以及计算机硬件性能的急速提升真,人们对于视觉效果的逼真性要求也随之越来越高。在游戏和电影领域,逼真的渲染效果变得越来
Internet的快速发展,基于Web的应用与人们的生活和工作越来越紧密联系在一起。很多传统的信息系统被移植到互联网上,微博、电子商务、社交网站等新型的应用模式也在层出不穷
随着信息技术不断发展,云教育、在线辅导等技术逐渐成为热点。由于传统在线教育辅导系统习题结构单一、难于数据挖掘、学习效率低等诸多因素导致其难以普及应用。智能教育辅
语音是人类交流的最重要媒介,而多数语音出现在噪声环境之中。听力正常的人可以不受噪声干扰,而听力障碍者和语音识别系统都难以处理混有噪声的语音,这就需要语音分离处理。
现今,随着人口密度的不断增加,在人群比较拥挤的公共场合,群体异常事件的发生概率也逐渐增大。为了使损失降到最低,及时、有效的报警,成为了解决这一难题的关键因素。智能视
随着无线通信技术的飞速发展,具有低功耗、低成本、自组织独特优势的无线传感器网络(Wireless Sensor Network, WSN)应运而生,并迅速成为21世纪最具影响的十大技术之一,其应
随着互联网信息技术的飞速发展,Web网页信息正在呈现指数级的增长趋势。面对如此巨大的Web信息资源库,搜索引擎已成为用户获取网络信息资源的重要工具。Web链接结构分析算法,
目前,随着通信技术的发展,各个领域都已经进入了一个相对高速的发展阶段,首当其冲的就是计算机行业。计算机在工业,民用,军用等领域都显示出他强大的能力,业务开发者对开发融
网络信息化时代,如何进行简单有效的身份识别与认证,保护信息安全,是急需解决的关键社会问题。利用人体固有的生理特征或行为特征进行个人身份鉴定的生物特征识别技术,因其安