论文部分内容阅读
Internet上充斥着大量的图像数据,如何有效的管理和组织这些数据,并快速、准确、全面地从中找到用户所需要的信息,是信息检索领域面临的一大新的挑战。本文对如何构建Internet图像搜索引擎进行了研究,并实现了一个检索系统XImage,向用户提供高效的图像检索服务。
论文首先介绍了基于文本的图像检索(TBIR)、基于内容的图像检索(CBIR)、基于语义的图像检索(SBIR)等3种技术,在分析Internet图像资源特点、用户检索行为特点的基础上,提出了一个4层的语义模型,并总结出了设计图像搜索引擎时应该遵循的3条原则。从这3条原则出发,提出了一个图像搜索引擎XImage的设计思路。
在网页上采集图像和文本信息时,提出了阶梯式关联度计算方法,来衡量检索关键词和图像之间的关联度大小,使得TBIR的输出结果更加科学合理,使得用户能够快速地得到样例图像。论文还对图像过滤进行了研究,提出了基于图像复杂度的过滤算法,根据图像内容的复杂程度来区分有用图像和垃圾图像。
在特征抽取方面,提出了一个新的图像特征抽取方法:投影法。传统的全局颜色直方图无法体现图像颜色的空间分布情况,完全不同的图像,也可能具有相同的颜色直方图。为克服这一缺陷,论文采用了一种新的算法,即利用HSI颜色模型,把图像的色调、饱和度和密度分量分别在水平和垂直两个方向上投影,得到6个投影直方图,色调和饱和度的投影直方图反映了颜色的空间分布,而密度的投影直方图则体现了图像的形状,使用这6个投影直方图的前三阶中心矩,可以很好地表示图像的颜色和形状特征。图像的纹理则采用灰度共生矩阵描述,利用反差、能量、熵、相关等4个参量来表示纹理特征。论文还对传统的形状表示方式进行了分析,指出了其面临的问题,并用实验证明了利用亮度投影方法描述图像形状的有效性。
论文最后提出了利用神经网络获取图像语义的方法。神经网络具有很强的非线性映射能力。本文通过构造一个RBF神经网络,在图像的颜色、纹理、形状等低层物理特征和高层语义特征之间建立映射关系。通过向RBF神经网络提供一组训练样本(这些样本包含了人的经验知识),让神经网络学习人对图像的理解能力,训练成功后的神经网络能够自动获取图像的语义。鉴于难以确定RBF网络的隐节点个数、中心、宽度和连接权值,论文采用遗传算法来训练RBF网络,一次性获得RBF网络的全部参数。实验结果表明,这种基于语义的图像检索算法具有很好的性能。