ColoR-Based Similarity Search in Multimedia Information Retrieval Systems Augmented with Derived Ima

论文部分内容阅读

在许多领域，多媒体内容都出现了爆发式增长，如何更有效地访问这些领域的全球信息数据库已经成为新的迫切需求。由于这些领域中的系统所提交的复杂数据并没有传统数据库管理系统（Database Management Systems-DBMS）中的数据所具有的全面排序属性，因而使我们在搜索体验的质量上遇到了一个重大挑战。检索出精确的答案是对传统的数据库管理系统应用程序的基本要求，然而，新开发的数据库系统正在被越来越多地要求支持更为复杂的数据类型，如图像、视频、音频、时间序列甚至DNA序列等。正是由于存在对这些数据类型的处理需求，使得在数据管理系统中出现了多媒体数字数据库（Multimedia DigitalDatabase-MDD）这类系统。目前，多媒体数字数据库在科学应用方面已经变得越来越普及，其领域涵盖了娱乐、磁共振成像、学习管理系统等。在这些多媒体数字数据库中的信息，对于每一个希望在各种各样的应用程序中使用它们的人来说，通常被期望是容易访问的。在多媒体数字数据库中出现的数据，例如图像，是半结构化、非均质、且容量庞大的，通常存储在大型磁盘阵列中。各种类型的用户，包括遥感、时装设计、出版、医药、建筑、甚至预防犯罪等领域，他们在使用这种数据库时，都希望系统能够提供高效的图像搜索、浏览和检索工具。这就引发了多媒体信息检索（Multimedia Information Retrieval-MIR）领域的一个重要研究课题，即有效且高效的图像相似性搜索。
　　虽然许多现代搜索算法对于求解各类优化问题来说既快速也有效，但在多媒体数字数据库中通常由于存在大量的参数，这些搜索算法可能并非同样有效。多媒体数字数据库需要操作大矩阵，检索大量信息，且对存储容量有很大要求，这些因素很可能会导致某些可用的搜索算法变得速度缓慢或者根本无法正常运行。多媒体域中的对象可以被转化为某个度量空间中的对象，这些对象可以用一个适当定义的度量函数来描述。在这种情况下，搜索技术可能需要借助某种优化方法以便在度量空间中找到查询向量与被检索图像之间最接近的特征点。搜索这些最接近的特征点，就引出了相似性数据检索问题。这种类型的相似性查询对于许多数据挖掘问题以及多媒体数据库应用来说尤为重要。
　　相似性搜索，可以简单地定义为针对一个给定的查询对象搜索出一组相似的对象，它是多媒体信息检索中的一项关键任务。在应用时，对象通常都被表示成高维的向量。用于大型集复杂多媒体数字数据库的相似性搜索技术，其性能的优劣取决于搜索算法和索引结构。在一个度量空间M中给定一个包含S点的集合，并且给定一个查询点q∈M,那么相似性搜索问题可以定义为在集合S中找到与q最接近的点。通常情况下，度量空间M被定义为一个d维的欧几里德空间，而距离则采用欧式距离进行测量。目前被提出来用于数字多媒体数据库相似性搜索的方法通常都是基于信息检索领域之外的技术，其中最常见的一种方法就是奇异值分解法（Singular Value Decomposition-SVD）。所谓奇异值分解，是指将图像的特征转换为离散的元或项，它是一种图像分解技术，可以用来计算一个矩阵的奇异值、伪逆阵和秩。奇异值分解法目前已经被应用到基于色彩的多媒体内容的索引和检索中。颜色可以提供一种鲁棒的检索技术，基于颜色已经开发出了一些新的可扩展的浏览算法和一些语义可视化界面，这些浏览算法允许用户访问各种庞大的多媒体数据库，而语义可视化界面则可以将对象组件集成到一个统一的多媒体浏览和检索系统中。目前，关于颜色感知和颜色空间的研究，已有很多研究成果。在基于内容的图像检索(Content-Based Image Retrieval-CBIR)领域，对于目标识别和摄影图像的相似性搜索来说，颜色已经被证明是一种非常好的鉴别特征。基于内容的图像检索是一种用于从图像数据库中提取相似图像的技术，该技术利用图像固有的视觉内容来执行查询操作。对于一个给定的图像数据库，基于内容的图像检索会抽取每幅图像的特征并相应地给这些图像编索引。在经典的基于内容的图像检索系统中执行一次搜索，其结果往往依赖于输入图像的各种特征信息。随着技术的进步，包括数码相机的不断普及以及管理大型信息数据库越来越变得可能，基于内容的图像检索技术已经被证明是更有效和更实用的，它可以使用户免除以前繁琐、主观且容易出错的图像描述任务，因此显著地改善了检索系统的实用性。
　　一幅图像的低级颜色特征可以用一个颜色直方图来表征。颜色直方图表示法，不仅可以有效地刻画出一幅图像的整体色彩特征，而且还可以定义一种用于测量多媒体数字数据库中两幅图像之间相似性的方法。在基于内容的图像检索系统中，颜色直方图是最常用到的特征。表达和描述颜色的一种系统的方法就是使用颜色模型。光谱的可见光部分，占主导地位的是红色、绿色和蓝色（RGB），它们被视为可见光谱的主要颜色。
　　为了获得所需的图像感知信息，在开始图像相似性检索之前，要做的第一件重要工作就是对图像进行增强处理。图像增强包括去除图像噪声、放大对比度以及放大某些细节。对于原始图像数据，增强处理可能还包括提高图像亮度值的动态范围。我们知道，若背景光过强或照明不足，都有可能导致图像的亮度值很小。或者，图像的亮度值可能太大以至于无法被显示设备有限的位平面所容纳。当现场照明在空间中呈现很大变化时，对大多数图像来说，这个问题也许会变得更加复杂。在这种情况下，背景可能会变得太暗或者太亮。我们的目标就是要对这种类型的图像进行加工处理，以改善图像的局部对比度。
　　直方图均衡化（Histogram Equalization-HE）是一种最简单、最常用的图像对比度增强技术。利用这种技术，通过指定输入图像各像素的亮度值使得输出图像含有均匀的亮度分布，可以有效地提高图像直方图的动态范围。
　　彩色图像对比度增强的经典方法都是以直方图均衡化为基础的，但它们并不是直方图均衡化简单直接的扩展。这是因为彩色图像具有某些特定的特征，包括亮度(L)、饱和度(S)和色调(H)等属性，这些属性在增强图像的对比度时都需要适当加以考虑。对于某种具体应用而言，为了使用一个好的颜色空间，可能需要在颜色空间之间进行颜色变换。当一个算法将RGB颜色坐标（RGB空间）转换到另一个不同的空间，如HSV空间（指由色调H、饱和度S和纯度V所构成的空间）或者YCbCr空间（Y是亮度分量，Cb和Cr分别为蓝色差和红色差的色度分量）等后，彩色成分与非彩色成分会变得更加互不相关。这使得我们可以将颜色采用色调、饱和度和亮度来表示，这种表示方法与人类视觉系统处理颜色的生理学模型更加接近。
　　迄今为止，虽然已经有一些图像增强的方法被提出，但为了获得更好的图像质量和降噪性能，为了更加不失真地转换图像，我们根据文献[10]所提出的算法进行了图像增强的研究。该算法通过按比例增大或缩小离散余弦变换(DiscreteCosine Transform-DCT)的各个系数可以实现对彩色图像进行增强处理，其独到之处在于，除了处理亮度分量和大大改进图像韵视觉效果之外，它还可以处理颜色成分。
　　离散余弦变换技术是一种在数据压缩中经常使用的变换编码方法，它把正交矩阵的时序变为频率信号，是一种近似于傅立叶变换的正交变换。这种变换具有输入序列的功率（平方和）同变换序列的功率相等的特点。也就是说，如果在某一部分由于变换导致功率集中的话，那么其它部分的功率将变小。一般来说，图像信号具有在低频段功率集中的特性，因而使高频段的功率变小。另外，人眼对高频段信号的视觉特性也不太敏感。利用这些特性，可对低频段部分进行细量化，而对高频段部分进行粗量化。
　　离散余弦变换DCT的处理步骤是，先将整体图像分解成N×N个像素块，再对这些块像素逐一进行DCT变换。由于大多数图像高频分量较小，相应于图像高频成分的失真不太敏感，所以可以采用更粗的量化，在保证所要求的图像质量下，舍弃某些次要信息，这样，传送变换系数所用的数据率要大大低于传送像素所用的数据率。数据传送到接收端后，再通过反离散余弦变换(反向DCT即IDCT)变回到样值。
　　为了高效存储和高效传输图像以及减少计算的复杂性，图像通常被压缩成JPEG格式（Joint Photographic Experts Group-JPEG）。在JPEG压缩格式的基本构建块中，离散余弦变换是一种被广泛采用的图像压缩标准，它可以把图像从空域转换到压缩域。离散余弦变换系数的空间频率特性为在离散余弦变换域中定义对比度测量方法提供了一种自然的方式。使用压缩域表示图像的另一个好处是，由于光谱分离，使得我们可以通过不同方式处理各种频率分量来达到增强图像特征的目的。
　　目前，在分块离散余弦变换域内，针对彩色图像和灰度图像都已经提出了一些不同的图像增强算法，如Alpha-Rooting算法、多对比度增强算法等，有些算法还可以同时利用离散余弦变换的直流(DC)系数和交流(AC)系数来处理交流(AC)系数。对每个分块进行独立处理可能会导致分块效应，这在分块离散余弦变换域内极为常见。如何有效解决这个问题是块处理过程中非常关键的一步。为此，在本文中我们提出了一种特别的处理方法，该方法可以有效消除离散余弦变换的高频（高次谐波分量的）系数，从而使得各分块的边缘变得光滑。
　　本文的一个重要贡献在于对输入图像的查询质量进行了精细的改进，有助于获得更高质量的搜索结果。我们的主要目的是想进一步对输入的查询图像进行增强处理，以提高图像所呈现信息的可解释性（可解读性），从而为相似性检索的应用提供更高质量的图像。这个目的是通过抑制图像噪声、提高图像对比度和亮度来实现的。我们所提出的查询质量改进方法在于突显、加强或者平滑图像的特征，这一改进过程并不会增加数据中固有的信息内容，但它确实可以提高所选择特征的动态范围，从而使这些特征可以很容易地被检测到。目前，虽然已有几种改进算法可以对彩色图像进行增强处理，但在我们的研究中，仅限于采用那些基于人工智能技术的强鲁棒性方法。文献[9]的作者，应用基于遗传编程(GeneticProgramming-GP)的全局对比度增强改进技术，通过改变输入图像的色彩分布图，使得输入图像可以满足人类解释的要求。在文献[12]中，我们的研究表明，将遗传算法（Genetic Algorithms-GAs）应用到经过增强处理后的图像，还可以进一步实现对图像的优化。只要在遗传算法进化过程中始终保存“最好解”，那么就有可能使搜索逐步演变成期望的相似性搜索。
　　粒子群优化算法(Particle Swarm Optimization-PSO)是另一种现代的启发式寻优算法，它也可以用来改进输入图像的查询质量。在局部PSO增强和改进模型中，使用了以给定图像中每个像素邻域的灰度级分布为基础构造的变换函数。与遗传算法相同，基于PSO算法的图像增强方法，要求选择一个适应度函数以建立评价个体优劣的适应度准则。采用这种增强方法，需要被增强的图像有一个相对较高的边缘亮度。所以，适应度准则应该与边缘像素的数量和亮度成正比。要生成一幅增强图像，需要用到刚刚提到的变换函数，它既包含输入图像的全局信息又包含其局部信息。
　　在基于内容的图像检索系统搜索模式中，研究人员已对采用主动学习方法产生了越来越大的兴趣。学习对象之间的相似性度量，是机器学习领域一个一般性但却很重要的问题，它可以用在多媒体信息检索过程中。设计一个查询优化方案可以视为一个机器学习任务。查询优化方案在解决一些大规模的应用问题中特别有用，比如，像搜索出一幅与给定图像相似的图像这类任务。基于人工神经网络（Artificial Neural Networks-ANNs）的学习算法通常用于使相似性匹配功能偏向或者符合用户的查询兴趣。人工神经网络是模仿高等动物大脑的某些信息存储和处理能力而开发的数学模型。一个人工神经网络是由一些神经元通过相互连接而形成的一个网络拓扑，在每对神经元之间的连接上都有一个可调节的加权系数，这个系数起着生物神经系统中神经元的突触强度的作用，它可以加强或者减弱上一个神经元的输出对下一个神经元的刺激。这个加权系数通常被称作为权值。人工神经网络最具有吸引力的特征是，使用某些学习算法以及少数训练样本就可以教会它们执行计算任务。Holland、Wu和Chechik等学者都曾指出，人工神经网络可以通过各种进化算法加以优化，使其性能得到改善。
　　在人工神经网络中，学习起着极其重要的作用。学习过程也是神经网络的权值和阈值被调整、修改的过程。神经网络的学习能力是由其网络结构和网络训练算法决定的。反向传播算法(Backpropagation-BP)是目前最常用的训练神经网络的学习算法，它已被证明在训练前馈多层感知器时非常成功。在我们设计的基于内容的相似性检索系统中，多层神经网络的实现分为两个阶段。第一阶段是训练，在此过程中样本数据库中的图像被标记，以便用于被选择。图像被标记后，通过低层的颜色描述算符处理后形成神经网络的输入。在神经网络训练过程中，输入图像的每个特征向量都会与从样本数据库中搜索到的图像的一个目标向量相关联，该目标向量的基数等于训练数据库（（样本数据库）中组的数量。反向传播学习规则在网络训练过程中一直使用，直到神经网络实现收敛为止。神经网络的收敛与样本数据库中图像的标签有关。网络训练完成后，第二阶段就是利用样本数据库中其它图像的信息来生成高级的特征向量。然后，采用标准的欧几里德相似性度量法，将从样本数据库中搜索得到的结果图像的输出向量与储存在样本数据库中的高级特征向量进行比较，以检查输出的结果图像是否与输入的查询图像相似。学习可以只依靠正样本，如用于重新加权方法或基于Mahalanobis距离方法的那些样本，或者既依靠正样本也依靠负样本。
　　最初，由于用户心中事先并没有相似性的概念，所以神经网络所有的权值都是统一设置的，大小相等。搜索的灵活性主要来自于对权值的调整。要克服这种限制，可以让用户尝试运用案例查询的方法。当然，所用到的案例，在其非文本查询的表达式中必须包含与用户正在寻找的资料相关的多媒体项。近来，在很多多媒体检索系统中，已经采用案例查询框架。在我们的检索系统实现中，所采用的框架使用户可以通过提供一个案例以及k个与此案例期望的匹配来提出一个相似性查询Q。基于用户提供的初始案例，查询处理器会为这个输入的查询案例产生一个内部表示模型，我们将此称为“启动”查询。启动查询然后与数据库中的对象集进行匹配，并返回最佳的k个匹配结果。
　　任何图像检索系统的性能分析都取决于所采用的相似性度量准则。相似性是利用图像内容描述符进行计算的，这些描述符将输出图像的特征向量与相似性度量准则结合在一起，以表达图像特有的感知特性。对于一幅给定的查询图像，连同它的颜色特征一起，检索准确度越高，则反映检索得到的结果图像与输入的查询图像特征向量之间距离的度量指标就越好。在图像检索中，已经用到了多种距离测量方法。在本文中，我们采用欧几里德距离度量法，因为无论是从检索的有效性还是检索的效率来看，它都被认为是最理想的距离测量方法，它可以将搜索引导到最相似的被检索图像。
　　本文的主要贡献包括:
　　(1)提出了一种基于人工神经网络结构的有监督学习优化方法与离散余弦变换系数优化方法相结合的混合图像增强技术，以改进在多媒体信息检索系统中相似性搜索的质量。将该技术应用于图像数据，可以使正确检索到的相似图像（即与查询图像为同一类图像）的数量达到最大化。与以前那些直接提取图像数据进行训练而没有对图像的检索质量作进一步改进的方法相比，我们提出的这种技术可以有效地优化查询图像的离散余弦变换系数的缩放比例并通过有监督的人工神经网络算法显著地改善查询图像的检索性能，阿时使得系统的资源利用率达到最大而查询所需的等待时间最小。所提出的混合图像增强技术包含两个模块，一个用于增强输入的查询图像，另一个则对增强后的图像再做进一步的精细改进和优化。实验结果证实，采用所提出的这种图像增强技术，衡量图像检索性能的几个标准指标都得到明显的改进。
　　(2)提出了一种基于离散余弦变换算法与人工神经网络相结合的图像压缩算法，以高效压缩图像的各种特征信息并在压缩域增强图像的对比度。该算法具有以下优点:第一，能够成功地探索图像的自然场景并全面地对自然场景的内容进行编码，以获得图像场景分类的鲁棒表达形式;第二，可以增强原始图像中较暗和较亮区域的细节，同时又不增强原始图像的噪声信息以及影响原始图像的可压缩性;第三，具有较低的计算复杂性。为了提高处理速度，我们也对离散余弦变换系数的分布特征进行了研究。由于经离散余弦变换压缩后的输入图像其特征信息的动态范围被大大提高，使得图像的质量得到提高，从而使得搜索算法的整体性能也得到提高。实验结果表明，所提出的算法不仅可以改进图像的动态范围和对比度，而且可以有效地消除离散余弦变换在对每个像素块进行独立压缩时所产生的块效应并减少噪声信息。
　　(3)提出通过对解码器中的量化表进行加权处理利用JPEG压缩算法在离散余弦变换域内对输入的原始查询图像进行增强。图像数据随要求不同可具有不同的形式，这些要求会影响数据的存储、处理和表达。图像检索系统设计的目标之一就是要允许和确保所有各种形式的数据在操作上的易用性和存储上的高效性，运用JPEG压缩算法可以有效地实现这两个目标。由于在压缩域内大多数离散余弦变换的系数经量化后的值为零，使得算法的存储要求和计算开销都被大大减小，从而可加快算法的执行速度。使用JPEG压缩格式，还给我们提供了一种在离散余弦变换域中定义图像对比度测量的自然方式，同时也将图像从空域转换到压缩域。
　　(4)提出了一种基于人工神经网络的有监督学习算法用于提高排序函数的自动学习性能，以提高图像的检索质量并减少对手工调整参数的依赖。该算法的优点是可以提高学习速度、简化计算并且可以采用高速硬件加以实现。增强学习是一种理想的学习算法，可以用来训练排序模型，因而可以直接优化检索系统的性能。在对图像进行增强处理的过程中采用人工神经网络技术，对图像数据的增强过程及产生的最终结果有直接效果。从文中的分析可以看出，结合了学习策略的搜索算法可以使检索过程更加高效，得到的结果也更加接近最优解。此外，在图像相似性搜索算法中，我们还引入了一种新的图像选择准则，它能更好地反映图像相似性检索和排序的目标，使算法在对解空间进行搜索时，总能找到一个具有最小代价函数的最优解。
　　我们对所提出的多媒体信息检索系统的性能进行了测试实验，并对图像检索结果进行了分析。实验结果表明，对于各种不同视觉质量的输入查询图像，我们的检索系统都能产生高质量的输出结果。性能测试证实，与没有改进的查询图像相比，我们提出的图像增强及精细改进技术有效地增强了查询图像的视觉质量，改进了查询图像的检索性能。我们将基于人工神经网络的有监督训练方法与离散余弦变换相结合，使得检索产生的结果图像与输入的查询图像之间的相似性距离指标可以到达高精度检索的要求。
　　总的来说，本文所提出的基于颜色的查询质量改进技术为在多媒体信息检索系统中进行相似性搜索提供了灵活、可靠、可扩展性以及鲁棒的方法，有效地改进了在多媒体数据库中进行相似性搜索的结果。

与本文相关的学术论文