基于内容的文档图像检索系统设计与实现

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:f415931981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着多媒体技术和Internet的发展,多媒体资源快速增长。现在许多公司,政府机关,数字图书馆等机构都有各种各样的资料信息以文档图像的形式保存,而且数量巨大。随之而来的问题,就是如何在这些大量的文档图像中查找信息,基于内容的文档图像检索技术可以用来解决这个问题。 本人在对基于内容图像检索技术、OCR技术以及文档图像特点的研究分析的基础上,研究了基于内容的文档图像检索技术。设计了可以以汉字或汉字图像块作为检索条件,检索返回含有该汉字的文档图像的检索系统。这不同于传统基于内容文档图像检索方式,即输入文档图像实例,判断其是否在文档图像库中出现。 主要研究内容有: (1)文档图像预处理; (2)文档图像分割,将文档图像分割成一个一个汉字图像块: (3)汉字图像块各种特征提取方法以及相应的相似度计算方法.本文从不同的角度,使用了不同的汉字图像块特征提取方法。实验表明将几种特征提取方法相结合,可以提高准确率; (4)在倒排索引格式和四叉树(QuadTree)索引格式的基础上,设计了自己的高维索引格式; 在本论文的工作基础上,可以进一步研究开发和完善系统功能,最终实现一个完整的基于内容的文档图像检索系统,投入到实际应用中。
其他文献
随着互联网技术的发展与普及,以及面对当前对大规模同步多用户漫游系统的日益增长的需求,愈来愈多的企业组织加入到此项研究设计领域的竞争中来,如何能让市场需求与策划设计
入侵检测是网络安全的重要内容,它是一种积极、有效的网络安全手段。对比传统的静止的防御手段而言,它能主动的进行网络攻击的识别、跟踪以及采取相应的预防措施,因此受到各
统一建模语言(Unified Modeling Language,UML)是一种易理解、易描述、直观的可视化建模语言,它提供多种模型元素从系统的各个角度描述系统性质、功能及运行环境。基于UML的
改性沥青是指掺加改性或采取对沥青轻度氧化等加工措施,使沥青或沥青混合料的性能得以改变而制成的沥青结合料.高等级公路路面通常采用沥青混凝土形式,其施工质量直接影响到
一枝横斜,一簇浓绿,高于春温低于秋露;一石一凳,安稳出尘世罅隙里的阒静与等闲;猫如雪,酣幽梦;书半开,墨香清;无人摇的一柄芭蕉扇,匍匐中心,盖住一地风声.rn人呢?rn其实人也
期刊
网格计算(Grid)技术是近年来国际上兴起的重要信息技术,其目标是实现对地理上广泛分布的大量网上资源进行共享。其中,任务调度是网格技术的重要组成部分,主要包括资源发现、
在地广人稀的中世纪,能穿越大洋与荒野发现一个新大陆,进而大肆掠夺杀戮,是勇敢的明星,将有数不清的财富、权力与威名。而当今时代,地球一片阴霾,环境暴污,能发现一片了无人迹而生机勃勃的荒野,才是伟大的发现,是地球的福音。  问题是我们的世界还有多少荒野?还有多少森林秘境没有被人类践踏?  因此创造一处绵延千里的森林,如同当年“可上九天揽月,可下五洋捉鳖”是高端的设想,而能在高寒、高海拔、少雨、狂风、砂
期刊
塞罕坝,有人说它是辽金时期的“千里松林”,也有人说它是满清王朝的“皇家猎苑”,其实这都是对木兰围场和塞罕坝的误解。塞罕坝在围场境内,但它绝不是历史意义上的木兰围场。木兰围场古称“兴安”“木兰”或者“东木兰”,应该特指东起红松洼、西到御道口塞罕坝下的广大山区和林地。塞罕坝,它位于内蒙古高原的南段,过去百余年里,只是一片漫无边际的莽莽荒原,即使有人居住也是零散的游牧。望不到边的曼甸连绵起伏、广袤无垠,
期刊
爱情是那么神奇,也许就是一面之缘,也许只是惊鸿一瞥,然心有灵犀,一见倾心,从此念念不忘,生死相依。天地玄黄,世易时移,沧海桑田,一代代文人早已化作一抔黄土,而他们的爱情故
期刊
Ad hoc网络没有中心管理,节点移动会导致网络拓扑快速变化,如何检测网络拓扑的动态变化,获得高度自适应的路由成为Ad hoc网络面临的重要挑战。目前Ad hoc网络中使用较多的按