论文部分内容阅读
Web图像检索是当前活跃的研究方向,它有着广阔的应用前景,在计算机领域中得到了广泛的关注。但同时它又是一个极为困难的问题,困难主要来源于Web图像检索环境是一个规模惊人的分布式图像数据库,而且互联网用户一般不愿意花过长的时间等待检索结果。因此,Web图像检索技术的关键在于在具有相当准确度的前提下找到一种特别高效的检索算法。为了更加高效地进行Web图像检索,两种途径被广泛采纳:采用高效的图像降维算法和采用适当的相关反馈技术。基于拉普拉斯特征映射(LE)算法的保局投影(LPP)算法不仅可以保持流形学习的能力,而且具有线性方法计算简单、直观快捷的优点。我们的研究表明,LPP算法在用于Web图像检索时具有明显的优势。本论文的工作集中于LPP算法应用于Web图像检索时的相关研究:包括LPP图像降维算法的优化研究以及结合相关反馈技术的LPP算法研究。首先,本论文对基于LE算法的LPP算法在图像降维方面的应用作了深入的研究,论证了LPP算法用于Web图像检索系统的比较优势。LPP算法是基于LE算法的线性扩展,兼具有非线性的LE算法和线性降维方法二者的优点。与LE算法相比,LPP算法具有一个转换矩阵,而且计算复杂度比LE算法大大降低;与其它线性算法(如PCA算法)相比,LPP算法具有较强的流形学习能力,当数据集存在非线性结构时,利用该算法更能够保留图像空间的本质特征。其次,针对LPP算法中最近邻图并不能够总是准确地模拟数据流形,提出了一种优化的LPP算法:ILPP算法。在检测集的分布比较均匀的情况下,LPP算法定义的最近相邻图可以很好地模拟数据集的几何结构。然而,检测集是随机抽样产生的,分布情况未知(而且样本通常不足),并不能确保准确地表示出图像的流形结构。ILPP算法通过迭代地更新最近邻图,从而使之能更好地模仿流形的局部结构。实验结果表明该算法能够有效地提高LPP算法的性能。另外,在Web图像检索系统中,经常会有一些新加入的图像(网页在不停变化),大多数现有的半监督学习方法(包括基于SVM的半监督方法)在未标注数据量较大时处理效率较低。本论文提出了一种有效地结合SVM和LPP的半监督学习算法—“LPP半监督算法”。结合了SVM机制的LPP半监督算法可以很好地辨识数据空间的流形结构,同时可以更加有效地使用未标注的数据。实验结果显示,LPP半监督算法的检索准确度明显高于SVM半监督方法。最后,在对现有图像检索技术中的相关反馈方法进行研究的基础上,针对Web图像检索的特点,提出了一种结合相关反馈技术的新型LPP算法:FLPP算法。该算法兼具短期学习和长期学习的能力,通过该算法,我们在原有的LPP算法中引入用户反馈,通过对用户反馈的适当处理,可以优化LPP算法的降维映射,从而得到一个更能够反映语义属性的图像表示子空间。实验结果显示,比起现有相关反馈方法,FLPP算法可以明显提高检索准确度,而且经过长期学习后,可以获得一个近似最优的降维子空间。由于LPP算法的特殊优点,使它特别适合应用于Web图像检索系统。但由于LPP算法提出时间不长,实际应用于Web图像检索时尚有一些基础问题需要解决。为了解决这些问题,本论文提出了几种基于LPP的优化算法,大量的实验研究及结果表明,这些方法应用于Web图像检索系统时能显著地提高图像检索的准确性和效率。