论文部分内容阅读
随着互联网的快速发展和数码设备的普及,网络中数字图像的数量迅速增加。一些携带不良信息的图像在网络上传播,对社会造成了极大的危害。目前,面向信息过滤的图像检索系统在不良图像召回率和检索效率方面还存在不足,难以满足实际应用需求。因此,面向信息过滤的图像检索系统仍然是一个值得深入研究的问题。
选取何种特征以提高系统对不良图像的召回率、设计何种检索算法以提高系统检索效率这两个问题是面向信息过滤的图像检索系统要解决的两个关键问题。本文针对这两个关键问题开展了一些探索性的研究工作。一方面,在特征提取研究中,对以往系统中的各种常用特征提取算法(包括颜色特征、形状特征和纹理特征三大类,每一大类又包含若干种特征提取算法)进行了实现和分析,并根据实际应用中经常遇到的剪裁、不变性等问题选择了合适的特征提取算法;同时,为了提高特征表达的准确性,对傅里叶特征提取算法进行了改进。另一方面,在检索算法研究中,主要针对海量数据检索效率问题,提出一种向量近似、SimHash和倒排索引相结合的检索算法:首先根据特征值的取值范围把特征向量近似为整型向量;然后根据SimHash的思想把特征向量映射为一个Hash值,起到降维的作用;最后建立倒排索引,提高检索速度。
通过在公开数据集Caltech101和Corel及内部数据集上的实验,本文得到了以下结果来支持本文的工作:(1)根据本文算法提取的特征在同类样本上具有较大的相似度、在异类样本上则具有较大的区分度,从而保证利用这些特征能够有效地从图像库中检索出相似的图像、提高图像检索系统的召回率;(2)本文使用的特征中,形状特征对旋转、平移、缩放等情况具有不变性特性,灰度共生矩阵纹理特征对剪裁、缩略等情况具有较好的不变性特性,从而保证利用这些特征能够适应图像剪裁、旋转等情况,使图像检索系统在实际应用时能够具有较好的稳定性;(3)本文提出的检索算法与传统检索算法进行了比对实验,在包括1000万幅图像的数据集上,检索速度由传统检索算法的1.88秒/幅提高到0.22秒/幅,从而满足了图像检索的实际应用需求。