论文部分内容阅读
随着文档图像处理技术、图像采集技术和多媒体技术的不断发展,文档图像因具有易于收集、获取和携带方便、内容丰富、应用范围广泛等特点已成为人们日常生活和工作中不可缺少的信息获取来源。近20年以来,文档图像在档案管理、政府办公文件管理、数字图书馆管理等方面得到了广泛的应用,逐渐成为信息处理领域中发展速度最快的研究内容之一。随着文档图像应用的范围的越来越广泛和文档图像数量的不断增加,文档图像检索技术引起了许多研究者们的关注。而且如何从大量的文档图像数据库中精确和快速的搜索出有关信息成为迫切需要处理的紧要问题。 文档图像检索是指根据输入的文档图像,从文档图像数据库中找出与输入文档图像相似或近似的目标文档图像。目前提出的文档图像检索技术中大部分利用文档图像的纹理、形状和空间关系等全局特征,对文档图像进行检索操作。然而,基于这些全局特征的检索系统无法精确的表达出文档图像的细节内容,特征匹配和检索效率也不能满足要求。尤其是对于只包含文字的纯文本图像来说,通过基于全局特征的检索方法来进行文档图像检索的效果很不好。因此,本文提出了基于局部特征的文档图像检索方法。 本文的实验内容主要包括以下几个部分: (1)首先对文档图像检索技术中的特征提取、特征点匹配和图像检索部分进行了详细的研究,通过从每个图像的各个特征点提取128维的特征向量,并使用最近和次近欧氏距离的比值来度量相似性,初步建立了基于SIFT特征的维吾尔文文档图像检索系统。然后对SIFT的特征提取部分中的特征描述子生成进行了改进,将高维的特征向量减少为36维的特征向量,并使用最近和次近欧氏距离的比值来度量相似性,提出了以降低特征向量维数为目的的基于PCA-SIFT特征的文档图像检索系统。 (2)由于基于欧式距离比值的检索系统中检索性能的好坏由阈值来决定,因此为了避免维吾尔文文档图像检索系统中因阈值的选定不恰当而降低检索效率,本文中对图像检索策略进行了改进,把 KD树最近邻搜索方法与 SIFT和PCA-SIFT特征相结合,进一步提出了基于SIFT特征和KD树最近邻搜索方法的文档图像检索系统和基于PCA-SIFT特征和KD树最近邻搜索方法的文档图像检索系统,并比较这四种检索系统的特征点匹配率、图像检索率等性能,确定最适合维吾尔文印刷体文档的文档图像检索系统。 (3)为了验证SIFT特征提取算法对亮度的、旋转的、尺度不变性的维吾尔文文档图像的特征点提取性能和文档图像检索方面的有效性,本文在基于SIFT特征和 KD树最近邻搜索方法的检索系统中,对划分的、亮化的、旋转的和倾斜的查询图进行特征点匹配和图像检索实验,得到了100%的检索效率。 (4)在查询图像不在数据库的情况下进行特征点匹配和图像检索实验,算出了数据库不包含的查询图像和数据库里面的所有文档图像之间的相似率。 通过对包括2000幅维吾尔文文档图像的数据库进行文档图像检索实验,本文证明了基于SIFT特征+KD树最近邻搜索的检索系统对维吾尔文的文档图像检索具有更好的有效性和应用价值。