论文部分内容阅读
随着数字图像数量的急剧增长,如何高效、快速地从海量图像数据中检索出用户所需的信息是当前图像应用领域的一个重要问题。基于内容图像检索是目前国内外的一个研究热点,其面临的最大难题就是图像低层视觉特征与高层语义之间存在的巨大语义鸿沟。图像检索的根本目的是要为用户提供所需要的服务,满足用户的个性化需求,这也是新一代图像检索技术的发展趋势。
人们在浏览图像时,人眼视觉系统将图像传递到大脑,此时人眼的视觉注意和视点运动表达了人们对图像的喜好或兴趣,这个过程称为视觉感知。为了克服图像检索中的语义鸿沟问题,论文提出一种融合视觉注意模型和视点跟踪的视觉感知技术,希望通过直接感知用户视觉信息,得到客观反映用户语义的个性化兴趣信息,实现基于视觉感知的个性化图像检索。主要工作有:
(1)论文首先对基于视觉感知的个性化图像检索的研究意义和课题背景进行了阐述。对现有的视觉感知技术以及个性化图像检索技术的研究现状进行了综述。
(2)依据视觉注意机制,提出了一种基于视觉注意模型和进化规划的感兴趣区检测方法。采用进化规划方法分割图像候选区域,视觉显著度由视觉注意模型产生的局部显著和全局显著共同度量。在返回抑制以及显著度增强因子的作用下,注意焦点选取候选区域得到感兴趣区。这一方法符合人眼视觉注意机制,取得了较为满意的感兴趣区检测结果。
(3)根据图像检索系统人机交互的需求,设计并实现了闪烁红外LED和常亮红外LED两套视点跟踪设备的改造方案。通过对比各类摄像头的性能,选择适合的镜头及LED参数,常亮红外LED方案表现出更好的视点跟踪效果。
(4)结合常亮红外LED视点跟踪设备,提出了一种基于双阈值的低复杂度实时视点跟踪方法。该方法用双阈值法联合定位瞳孔-反射点、几何映射法预测视点位置。与用人脸检测定位人眼的传统方法相比,此方法显著提高了视点跟踪的速度。
(5)基于Web Camera的应用,利用拍摄到人眼图像相邻两帧的相似性,提出了一种自适应模板视点跟踪方法。首先用类Harr特征的快速人脸检测算法和自适应人眼模板匹配方法检测人眼区域,再从人眼区域中心到周边全搜索找到反射点,最后将人眼位置、瞳孔中心和反射点作为BP神经网络的输入矢量预测视点位置。相比传统模板法,提出的自适应模板法人眼定位更准确。
(6)针对图像检索的实际应用——无观察任务和有观察任务两种情况,提出了一种基于视觉感知的感兴趣区检测方法。前一种情况,采用视觉注意模型检测图像的候选感兴趣区;后一种情况,通过收集用户浏览图像的视点信息,计算用户的注视兴趣度,由此产生了客观化的感兴趣区检测结果。经过对比用户的主观评价,所提方法与用户实际兴趣有较高的符合率。
(7)通过分析视觉感知的感兴趣区,用视点跟踪进行相关反馈,构建了一种基于用户兴趣模型的个性化图像检索系统。相比传统MARS方法,经过用户兴趣模型过滤的图像检索结果在查准率和查全率都有明显提高,在一定程度上满足了用户的个性化要求,有效的克服了低层视觉特征和高层语义之间的语义鸿沟。