基于特征的文档图像检索技术研究与应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:bigdoglsm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档图像检索是图像检索的一个重要分支,它在电子档案管理、数字图书馆、办公自动化等方面应用广泛。文档图像检索的目标是从文档图像数据库中找到满足要求的一幅或多幅图像。常见的文档图像检索算法可以分为基于版面重建的文档图像检索和基于图像特征的检索两大类。在基于特征的文档图像检索中,对于文档图像这类特殊图像很难以颜色和纹理视觉特征来表示文档图像,同时也很难以从整体上提取的特征来表示文档图像的内容,所以基于特征的文档图像检索的关键技术之一是如何提取特征,如何计算特征的相似度。本文分析了现有基于特征的文档图像检索方法的优缺点,在此基础上,沿用基于特征的文档图像检索的基本思路,将文档图像的全局特征和局部特征相结合,给出了一种新的文档图像检索方法。首先对图像进行预处理,包括去噪、二值化和倾斜检测等。本文采用中值滤波方法去除椒盐噪声,使用一种简单的快速扫描方法去除黑边噪声;使用Bernsen算法对图像进行二值化处理,然后采用一种快速倾斜角度检测算法检测文档图像倾斜度,再利用快速旋转算法旋转校正图像。之后再对整个文档图像定义和提取有效区域的宽和高、分层密度特征、Sift特征。然后利用最大梯度差方法将文档图像分割成文字区域和非文字区域。对文字区域提取连通体对之间的距离(字间空白)、连通体高度、宽度等局部特征,连通体的个数、空穴个数、平均空白、平均连通体高度、平均连通体宽度和段落结构特征等全局特征。对非文字区域借鉴方块编码的思想提取关键块特征。其中分层密度特征同时包含文档图像的全局特征和局部特征,具有良好的区分度;Sift特征是文档图像的局部特征,它对旋转、尺度缩放、扭曲变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性,是一种对文档图像具有高鲁棒性的特征。文字区域特征是较低层次的特征,能较好的区分文档图像。非文字区域的关键块特征也已经被证明具有良好的区分度。提取的特征既包含了全局特征也包含了局部特征,既包括高层次特征也包含低层次特征。因此,它们的组合能充分表征文档图像。将这些特征按照性质和特征向量长度分成三个组。然后本文引入已经证明查询效率不会随维数增加而降低的聚类金字塔树来组织这些数据,对三个组分别建立高维索引聚类金字塔树。通过分别查询这三个聚类金字塔树得到三个图像集合,取并集从而得到候选图像集合,然后引入一种移动查询点的相关反馈算法提高检索准确度。本文的方法对手写体文档图像,印刷体文档图像和两者混合的文档图像均适用。最后,在包含4300张文档图像的数据库上对基于综合特征的检索进行了测试。实验表明:本文的方法具有普适性和较大的检索速度和较高的查全率和查准率,具有较强的实用价值。
其他文献
四川省宣汉县烟草所1983年在该县昆池区五宝乡七村与烟农宋兴贵合作进行两个晒烟的根外追肥试验。这个试验是在同一地块,采用同一品种(白花铁秆子),同等面积(各0.5亩),同样
我队根据水稻本田使用氨化过石做底肥有缓苗快、发根好的作用,以及氨水混拌过磷酸钙既能以磷固氮,又能减少过磷酸钙中游离酸伤害稻芽的道理。去年进一步利用氨化过石做 My
我有大片大片的记忆,是关于这个江南的.十九岁半,我开始深思,面对着黄昏中孤独飞行的鸟雀,面对着这些青瓦白墙爬满苍苔藤萝的江南屋.很多东西流水般逝去了.布匹从靛色的染缸
一rn当阳坡村村主任带着县乡两级访贫问苦的领导来到特困户邹大树家的时候,已经中午了.冬日的太阳当顶挂在破旧的茅屋脊上,灰灰的,没有一丝儿暖意.年关快到了,别说吃鱼吃肉吃
阴霾的天底下,东欧平原上吹来的瑟瑟寒风卷动着满地萧黄的落叶,卷起雪珠,伴着喑哑、凄冷的松涛声在苍茫的大地上弥散.里尔克,身心俱疲,犹如一个朝圣者走在卡布里岛上那条没
期刊
期刊
在我国的新闻战线上,有一份办给全国少年儿童看的报纸——中国少年报。这是一份四开小报,每周和小读者见面一次。现在每期的发行数为1,110万份。编辑部每天要收到小读者从全
对于重型建设设备、飞机和其他复杂设备而言,保证系统的稳定运行是一项复杂的工作。某个备件失效经常会使整个设备处于停机状态,造成巨大的损失。快速而有效地为顾客供应服务备件对于留住现有顾客和争取新的顾客是至关重要的。由于这些客户都广泛地分布在各个区域,很多企业为保证服务水平,都持有大量的库存,同时低需求的零备件价格昂贵,如何在成本和服务水平之间权衡成为服务备件库存管理的核心问题。供应链多级库存系统经常用
金县大连湾公社后盐大队一队,1973年由于冬小麦播种面积扩大,前茬倒地晚,80%的冬小麦是在10月7~19日播种的晚茬麦。这个生产队的干部和广大社员群众,以批林批孔为动力,全面落