论文部分内容阅读
随着多媒体数据库的广泛应用,人们在工作生活中每天都不断产生和使用海量的图像和视频等多媒体资源,对多媒体信息的有效检索手段逐渐引起人们的重视,尤其是对多媒体图像检索技术的研究,更是成为国内外研究的热点,也成为未来信息高速公路、数字图书馆等重大项目中的关键技术。
1 图像检索技术发展
作为图像处理技术的一个新的重要研究内容,图像检索的目标是从图像数据库中快速准确地提取出与查询相关的图像或图像序列。从系统的发展演变历程来看,图像检索系统可分为两代:第一代图像检索系统的特点是在离线状态下,先由注解员通过手工为数据库内的图像进行注解,提供出检索时所需的索引;检索时,用户输入字符串利用索引进行检索。由于这种方式不但受注解员的观点的影响,而且一些图像信息和特征很难用文字来描述清楚,不利于用户快速高效检索图像,因此逐步产生了基于图像内容进行检索的第二代图像检索技术——基于内容的图像检索(CBIR – Content Based Image Retrieval)。
图像的内容即图像的特征,CBIR技术克服了传统方法的不足,通过分析图像的内容,从大量静止或活动视频图像库中查找含有特定物体的图像进行特征匹配,即图像特征的相似性度量来实现图像的检索。
早期CBIR的研究重点是视觉特征提取,后来在语义特征、多维索引、用户接口、系统设计等方面又有所发展。近年来研究者又引进了更多领域的知识:从知识表示的角度运用人工智能领域的推理和神经网络技术提取特征和分类图像;构造面向对象的CBIR系统;开发面向Web的CBIR系统;并行CBIR技术也被提上了议程。
2 图像检索关键技术
一个典型的基于内容图像检索系统框架结构如图1所示。其中,图像数据建立模块提取每一数据库图像的特征,并将其储存于数据库中,以当作该数据库图像的索引。图像数据查询模块则请求用户输入某一查询图像,并提取该图像的特征,同时将此特征与储存于数据库中的数据库图像的特征作比对,按照相似度的大小输出与查询图像相似的图像。接着,用户可以根据自己的需要,将自己对查询结果的意见反馈给系统,进而重新检索和输出。其中的关键技术包括图像特征提取,相似性度量,相关反馈技术等。
2.1 特征提取
特征提取是基于内容的图像检索的基础,常见的用于描述图像的内容特征主要包括:颜色、纹理、形状、对象等。
(1) 颜色特征
颜色是描述一幅图像最简便而且有效的特征。颜色直方图的方法是最早用于基于颜色特征进行图像检索的方法。由于颜色直方图具有简单且对图像的大小、旋转变化不敏感等特点,得到了研究人员的广泛关注。在基于颜色特征的检索算法中通常用颜色统计直方图、累积直方图来表示图像的颜色特征。
(2) 纹理特征
纹理是基于内容图像检索的一个常用特征,它反映了关于图像表面的结构安排和周围环境的关系。基于纹理特征的图像检索已有很多研究成果。常用的描述纹理的方法有3种:结构法,统计法,频谱法。结构法是将图像中非常具有结构规律的特征加以分析;统计法是对图像中的颜色强度的空间分布信息进行统计;而频谱法则是利用傅立叶变换、小波变换等把图像从空域转换到频域后进行处理。
(3) 形状特征
形状特征也是人类视觉系统进行物体识别时所识别的关键信息之一,图像的形状信息不随图像颜色等特征的变化而变化,是物体稳定的特征,特别是对于图形来说,形状是它唯一重要的特征。
通常来说,形状特征有两种表示方法,一种是基于轮廓的特征,一种是基于区域的特征。前者只用到物体的外边界,而后者则关系到整个形状区域。这两类形状特征的最典型方法分别是傅立叶描述符和形状不变矩。
(4) 空间关系特征
由于图像的颜色、纹理和形状等多种特征反映的都是图像的整体特征,而无法体现图像中所包含的对象或物体,因此,图像中对象所在的位置和对象之间的空间关系同样是图像检索中非常重要的特征,包含空间关系的图像特征可以弥补其它图像特征不能确定物体空间关系的不足。
提取图像空间关系特征可以有两种方法:一是首先对图像进行自动分割,划分出图像中所包含的对象或颜色区域,然后根据这些区域对图像作索引;另一种方法则简单的将图像均匀划分为若干规则子块,对每个图像子块提取特征建立索引。
2.2 相似性度量
图像的相似性度量,既是图像检索技术中的一个关键问题,也是其中的一个难点。图像的相似性度量建立在图像内容的基础上,这里所说的“内容”等同于图像的特征。根据“内容”的不同含义,图像的相似性度量也建立在不同的含义上。图像的颜色、形状、纹理被认为是第一层次上的特征,具有相对直观的特点。语义内容是第二层次上的特征,具有相对主观抽象的特点。目前对图像相似性度量的研究主要集中在第一层次上,即基于图像的颜色、纹理、形状等特征。
一般,基于内容的图像检索的相似性度量可分为几何矩阵模型和集合理论模型:通常我们使用的是几何矩阵模型,将图像的特征向量看成是特征空间中的点,两个点之间的距离表示它们之间的相似程度。
但是,通过人类心理实验表明,距离度量方法和人对相似性的感知判断之间存在一定差距。因此,人们又提出了集合理论模型。1977年,Tversky提出了著名的特征对比模型(contrast model)。与几何距离不同,该模型不把每个实体看作特征空间的一个点,而将每个实体用一个特征集来表示。这一理论扬弃了几何模型下相似度度量的优缺点,提出了一个广泛的理论衡量方法,但它还不够实用,只适合那些特征明显的对象。
2.3 相关反馈
在基于内容的图像检索中,反馈是调整技术以适应用户需求和提高检索精度的常用手段。特别在借助语义概念进行的检索中,反馈是实现人机交互,从而将用户知识结合进查询中去的重要方法。
比较常用和比较成熟的反馈方法是相关反馈(relevance feedback),用户根据先前检索结果借助权重调整已有的查询要求以给检索系统提供更多更直接的信息,从而使系统能更好的满足用户的需求。其实质是个“指导性学习分类”,基本思想是:在检索过程中允许用户对检索结果进行评价和标记,每次检索的结果,通过人机交互,用户指出哪些是与查询图像相关的,哪些是不相关的,然后将用户标记的相关信息作为训练样本反馈给系统进行学习,以指导下一次检索,从而使检索结果更加符合用户的需要。
3 小结
本文对多媒体图像检索技术进行了浅显的研究分析,但图像数据库种类繁多,图像内容千变万化,文中所介绍的方法未必适用于每一种图像数据库的检索。随着越来越多的人对这一技术的关注与深入研究,并逐渐实现其实用化,在多媒体技术和网络技术的高度发展与普及的大背景下是具有十分重要的现实意义的。
1 图像检索技术发展
作为图像处理技术的一个新的重要研究内容,图像检索的目标是从图像数据库中快速准确地提取出与查询相关的图像或图像序列。从系统的发展演变历程来看,图像检索系统可分为两代:第一代图像检索系统的特点是在离线状态下,先由注解员通过手工为数据库内的图像进行注解,提供出检索时所需的索引;检索时,用户输入字符串利用索引进行检索。由于这种方式不但受注解员的观点的影响,而且一些图像信息和特征很难用文字来描述清楚,不利于用户快速高效检索图像,因此逐步产生了基于图像内容进行检索的第二代图像检索技术——基于内容的图像检索(CBIR – Content Based Image Retrieval)。
图像的内容即图像的特征,CBIR技术克服了传统方法的不足,通过分析图像的内容,从大量静止或活动视频图像库中查找含有特定物体的图像进行特征匹配,即图像特征的相似性度量来实现图像的检索。
早期CBIR的研究重点是视觉特征提取,后来在语义特征、多维索引、用户接口、系统设计等方面又有所发展。近年来研究者又引进了更多领域的知识:从知识表示的角度运用人工智能领域的推理和神经网络技术提取特征和分类图像;构造面向对象的CBIR系统;开发面向Web的CBIR系统;并行CBIR技术也被提上了议程。
2 图像检索关键技术
一个典型的基于内容图像检索系统框架结构如图1所示。其中,图像数据建立模块提取每一数据库图像的特征,并将其储存于数据库中,以当作该数据库图像的索引。图像数据查询模块则请求用户输入某一查询图像,并提取该图像的特征,同时将此特征与储存于数据库中的数据库图像的特征作比对,按照相似度的大小输出与查询图像相似的图像。接着,用户可以根据自己的需要,将自己对查询结果的意见反馈给系统,进而重新检索和输出。其中的关键技术包括图像特征提取,相似性度量,相关反馈技术等。
2.1 特征提取
特征提取是基于内容的图像检索的基础,常见的用于描述图像的内容特征主要包括:颜色、纹理、形状、对象等。
(1) 颜色特征
颜色是描述一幅图像最简便而且有效的特征。颜色直方图的方法是最早用于基于颜色特征进行图像检索的方法。由于颜色直方图具有简单且对图像的大小、旋转变化不敏感等特点,得到了研究人员的广泛关注。在基于颜色特征的检索算法中通常用颜色统计直方图、累积直方图来表示图像的颜色特征。
(2) 纹理特征
纹理是基于内容图像检索的一个常用特征,它反映了关于图像表面的结构安排和周围环境的关系。基于纹理特征的图像检索已有很多研究成果。常用的描述纹理的方法有3种:结构法,统计法,频谱法。结构法是将图像中非常具有结构规律的特征加以分析;统计法是对图像中的颜色强度的空间分布信息进行统计;而频谱法则是利用傅立叶变换、小波变换等把图像从空域转换到频域后进行处理。
(3) 形状特征
形状特征也是人类视觉系统进行物体识别时所识别的关键信息之一,图像的形状信息不随图像颜色等特征的变化而变化,是物体稳定的特征,特别是对于图形来说,形状是它唯一重要的特征。
通常来说,形状特征有两种表示方法,一种是基于轮廓的特征,一种是基于区域的特征。前者只用到物体的外边界,而后者则关系到整个形状区域。这两类形状特征的最典型方法分别是傅立叶描述符和形状不变矩。
(4) 空间关系特征
由于图像的颜色、纹理和形状等多种特征反映的都是图像的整体特征,而无法体现图像中所包含的对象或物体,因此,图像中对象所在的位置和对象之间的空间关系同样是图像检索中非常重要的特征,包含空间关系的图像特征可以弥补其它图像特征不能确定物体空间关系的不足。
提取图像空间关系特征可以有两种方法:一是首先对图像进行自动分割,划分出图像中所包含的对象或颜色区域,然后根据这些区域对图像作索引;另一种方法则简单的将图像均匀划分为若干规则子块,对每个图像子块提取特征建立索引。
2.2 相似性度量
图像的相似性度量,既是图像检索技术中的一个关键问题,也是其中的一个难点。图像的相似性度量建立在图像内容的基础上,这里所说的“内容”等同于图像的特征。根据“内容”的不同含义,图像的相似性度量也建立在不同的含义上。图像的颜色、形状、纹理被认为是第一层次上的特征,具有相对直观的特点。语义内容是第二层次上的特征,具有相对主观抽象的特点。目前对图像相似性度量的研究主要集中在第一层次上,即基于图像的颜色、纹理、形状等特征。
一般,基于内容的图像检索的相似性度量可分为几何矩阵模型和集合理论模型:通常我们使用的是几何矩阵模型,将图像的特征向量看成是特征空间中的点,两个点之间的距离表示它们之间的相似程度。
但是,通过人类心理实验表明,距离度量方法和人对相似性的感知判断之间存在一定差距。因此,人们又提出了集合理论模型。1977年,Tversky提出了著名的特征对比模型(contrast model)。与几何距离不同,该模型不把每个实体看作特征空间的一个点,而将每个实体用一个特征集来表示。这一理论扬弃了几何模型下相似度度量的优缺点,提出了一个广泛的理论衡量方法,但它还不够实用,只适合那些特征明显的对象。
2.3 相关反馈
在基于内容的图像检索中,反馈是调整技术以适应用户需求和提高检索精度的常用手段。特别在借助语义概念进行的检索中,反馈是实现人机交互,从而将用户知识结合进查询中去的重要方法。
比较常用和比较成熟的反馈方法是相关反馈(relevance feedback),用户根据先前检索结果借助权重调整已有的查询要求以给检索系统提供更多更直接的信息,从而使系统能更好的满足用户的需求。其实质是个“指导性学习分类”,基本思想是:在检索过程中允许用户对检索结果进行评价和标记,每次检索的结果,通过人机交互,用户指出哪些是与查询图像相关的,哪些是不相关的,然后将用户标记的相关信息作为训练样本反馈给系统进行学习,以指导下一次检索,从而使检索结果更加符合用户的需要。
3 小结
本文对多媒体图像检索技术进行了浅显的研究分析,但图像数据库种类繁多,图像内容千变万化,文中所介绍的方法未必适用于每一种图像数据库的检索。随着越来越多的人对这一技术的关注与深入研究,并逐渐实现其实用化,在多媒体技术和网络技术的高度发展与普及的大背景下是具有十分重要的现实意义的。