论文部分内容阅读
基于内容图像搜索引擎是一个重要且具有挑战性的学术研究领域。发展实用的基于内容图像搜索引擎,找出图像之间的相互联系,研究基于内容图像搜素引擎关键技术有重要的现实意义。本文将区域加权信息熵应用于图像特征提取,探索基于内容图像搜索引擎图像库索引技术新途径。在研究和比较几种商用搜索引擎机器学习的基础上,本文探索适合基于内容图像搜索引擎的机器学习方法,并开发出相应的软件。主要工作包括:分析现有的基于颜色-空间图像特征提取算法的基础上,结合图像信息熵概念与图像分割算法,提出了一种新的图像信息熵描述方法,即区域加权信息熵,并证明了区域加权信息熵的若干性质。采用信息熵性能评价指标从概率的角度描述因权值变化而引起的图像信息熵分布的变化,并考虑应用的兴趣区域以及权值粒度从而确定合理权值。实验表明区域加权信息熵方法比单纯信息熵方法描述图像内容准确率高了50%以上。将多维索引概念应用于基于内容图像搜索引擎中。由于基于图像内容搜索引擎的特点所以不能使用现有的文本搜索引擎的索引结构。本文对R~*树索引进行了适应性改进使之能应用到基于内容的搜索引擎中。图像多特征预处理将图像的多个特征值规一化以便建树及查询,R~*树圆域查询定义了多特征图像匹配中相似距离的概念,从而找出含有相似图片的叶子节点。实验表明,使用R~*树索引后检索时间大幅降低,并且R~*树索引时间性能优于简单索引结构。在分析了现有商用搜索引擎机器学习的基础上,结合基于图像内容搜索引擎自身特点,设计并实现了基于图像内容搜索引擎三个方面的机器学习功能。使图像搜索引擎搜索效率和准确性均有了明显的提高。基于上述研究结果,设计并实现了基于内容的Web图像搜索引擎V2.0系统。该系统采用区域加权信息熵方法提取图像特征、R~*树多维索引结构,等基于内容图像搜索引擎关键技术。实现后系统的准确性和用户响应速度达到了预期的目标。