基于特征的文档图像检索

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：tonyyuhua

【摘要】

：

文档图像检索是图像检索的重要方面,在数字图书馆、办公自动化等方面具有广泛应用。文档图像检索的最终目标是从文档图像数据库中获得与输入图像或特征具有高相似度的一组图

【作者】

：

张田

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2009年期

【关键词】

：

文档图像检索 SIFT特征密度特征关键块特征文字区域特征非文字区域特征多维数据检索结构

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文档图像检索是图像检索的重要方面,在数字图书馆、办公自动化等方面具有广泛应用。文档图像检索的最终目标是从文档图像数据库中获得与输入图像或特征具有高相似度的一组图像序列。常见的文档图像检索算法可以归为基于文档字符内容的检索和基于图像特征的检索两大类。在基于特征的文档图像检索中,文档图像匹配技术是核心技术,它主要是从文档数据库中给出输入图像的最佳匹配。匹配技术是建立在特征定义及其提取基础之上的。本文在分析现有基于特征的文档图像检索方法优缺点的基础上,沿用基于图像特征的文档图像检索的基本思路,并借鉴基于内容的图像检索中基于图像子块的方法给出一种新的文档图像检索方法。首先对图像进行预处理,包括去噪处理和倾斜检测。去噪采用滤波模版简单有效,去噪后提取SIFT特征。作为倾斜检测第一步的二值化使用结合全局和局部的文档图像二值化方法,然后提取文档图像的边界线进行倾斜检测,并且引入的LMS自适应算法能使其具有更好的智能性。同时,在倾斜检测中提取的边界线特征可以作为文档的特征用于后续检索。之后再对整个文档图像定位有效区域,定义和提取有效区域的长度、宽度、密度特征;然后利用基于ISI学习算法的方法,通过对分割样例的学习,将有效区域分割成文字区域和非文字区域。对文字区域提取连通体对之间的距离(字间空白)、连通体高度、宽度等局部特征以及连通体的个数、空穴个数、平均空白、平均连通体高度、平均连通体宽度、段落特征等全局特征;对非文字区域提取关键块特征。这些特征中SHIF特征具有对伸缩、平移、扭曲的不变性,是一种对文档图像畸变具有高鲁棒性的特征。文字区域特征是较低层次的特征,能较好的区分文档图像。密度特征和关键块特征已经被证明具有良好的区分度。所以提取的特征既包含了全局特征也包含了局部特征,既包括高层次特征也包含低层次特征。因此,它们的组合能充分表征文档图像。将这些特征按照性质和特征向量维数分成三个组。然后本文引入已经证明对维数较高的数据仍然具有很好检索效果的A-Tree来组织这些数据,对三个组分别建立高维索引A-Tree。分别查询这三个A-Tree得到三个图像集合,取并集得到候选图像集合,然后根据候选图像的集合权值更新,给出最终结果。本文的方法对手写体文档图像、印刷体文档图像和两者混合的文档图像均适用。最后,在包含主要为文字的3900张文档图像的数据库Ⅰ和包含文字、图片、表格混合的2124张图像的数据库Ⅱ上分别进行实验测试了各特征的适用性。然后在总数据库上对基于综合特征的检索进行了测试,并与已有算法做了对比。实验表明:本文的方法具有普适性和较高的效率,具有较强的实用价值。

其他文献

河南省百万亩夏播花生栽培技术推广简结

推广夏播花生,改一年一熟制为一年二熟制,可以利用小麦生产的优势,减少粮、油争地,发掘土地潜力,提高花生产量,是增产粮、油的有效途径。为此,省农牧厅经作处于1985年元月,

期刊

花生栽培花生产量经作所一熟制农学系技术推广麦垄套种河南农业种花生花生生产

湛江南药场白豆蔻寒害调查

本文简述低温对白豆蔻的寒害情况。在1983年冬,66天中出现低温(7℃以下)天气24天,在短时间的极端最低温度1.5℃以后,叶片呈现白斑;4.2℃后,叶片呈现水渍状;低于5℃嗣后断续仍

期刊

白豆蔻南药寒害极端最低温度Amomum平流霜冻极端最高温度辐射霜多年生草本热带气候

企业整体运营风险研究

目前我国企业普遍缺乏对运营风险的系统认识，而现有文献又缺乏对非金融企业运营风险的系统研究，针对这两个问题本文展开了对企业整体运营风险的识别、度量和控制研究。　　首

学位

企业管理风险管理整体运营风险Copula函数实物期权

基于Internet的远程监控系统开发技术研究

分析了基于Internet技术的远程监控系统的软件体系结构 ,对远程监控系统开发中所涉及的多用户同时操作、ActiveX控件开发与发布、现场远程监控代理软件设计等进行了讨论 ,同

期刊

远程监控Internet系统开发技术软件体系结构监控系统开发数字证书系统安全策略远程用户生产过程远程故障诊断

基于复杂适应系统的供应链协同研究

随着经济发展和管理理念的不断创新,供应链管理已经成为21世纪的一种主流管理模式,通过供应链各环节的“无缝衔接”,实现资源整合,削弱内部企业间的内耗,提高工作效率,降低运

学位

中国博客撰写者的博客使用行为影响因素实证研究

随着新一代网络技术Web2.0在互联网上的应用日趋成熟，其典型代表——博客在2002年进入中国的网络世界之后，经过短短几年的发展，如今在中国已经具有巨大的影响力，不断有博客文章引

学位

博客使用行为整合性科技接受与使用模型博客特性

资源型企业国际化程度与绩效关系研究——基于上市公司动态面板数据

资源型企业是以资源占有优势为其核心竞争力，具有对资源依赖性大、地理性强、负外部性、产品附加值低、资产专用性强等特点，是依靠资源消耗实现成长的企业。资源型企业对外直接

学位

资源型企业国际化绩效管理动态面板模型上市公司

旱薄地冬小麦增产措施

盐池县历年种植小麦45000亩左右,其中冬小麦占95％以上,由于气候条件限制,加之耕作粗放,长期来产量低而不稳。通过调查分析,我们认为提高旱薄地冬小麦产量应从以下几方面入手

期刊

旱薄地冬小麦老芒麦榆林增产措施西峰品种布局蓄墒抗旱力气候条件

棉花海陆杂交后代多抗逆性(MUETI—ADVERSITY RESISTANCE)鉴定初探

用间接筛选法(Indireet seleetion)测定棉花种子抗霉性与抗苗期立枯病菌(Rhi-zocotonia sotani)的关系,在低温(13.3℃)下二者成正相关,淘汰在低温下长霉(Pe-nicillium sp,Ae

期刊

MUETI杂交后代抗逆性中棉所多元酚苗期立枯病海陆筛选法病圃黄萎病菌

福建省召开西洋参引种试种研究技术鉴定会

西洋参在福建省戴云山脉引种栽培,具有早熟,从采种至出苗的时间短,物候期提前,生育期长,冬季不存在冻害等特点。福建省医药管理局和省卫生厅于1986年8月1—2日在大田县召开

期刊

医药管理局戴云山脉物候期技术鉴定会引种栽培高海拔山区栽培区域

基于特征的文档图像检索

与本文相关的学术论文