论文部分内容阅读
随着Web信息技术的不断发展,图像作为一种重要的信息资源不可避免地出现在Web的信息资源交换中,其数据规模不断膨胀,面对海量的Web图像资源,如何基于Web用户的图像认知及检索习惯,高效实现Web图像的检索服务是信息检索领域中的重要研究课题之一。本文在分析图像及其语义特征的基础上,对图像检索的各种方法进行了相应的调查研究,基于用户对图像的认知及检索习惯,结合图像所处的Web环境特征,针对现有技术现状,分析了基于文本的Web图像检索方法的可行及有效性。本文围绕改进Web图像的检索质量,对基于文本的Web图像检索方法进行了深入研究与分析,并着重图像资源采集及相关文本分析的预处理环节展开研究,主要工作有:(1)针对各类Web图像资源的采集,在分析Robot的核心工作机制基础上,进行了可配置Web Robot的架构研究与实现,并给予了相应实验证明。通过采用可配置的灵活架构,可灵活控制Web资源采集的目标、范围及效率等;通过保留适当的增量开发接口,可实现各种采集工具的无缝集成,有利于节约各种Web资源采集工具的开发成本并提高工作效率。(2)针对日益复杂的HTML页面,以VIPS算法中证明的各项启发式规则作为支撑,提出基于HTML树路径差异度的页面主题区分算法,并给予了实验证明。通过算法实现复杂页面中的主题区分,可以克服将整体页面视为同一主题进行索引检索所带来的“主题漂移”现象,有利于准确提取Web图像的相关文本,有效地改进基于文本的Web图像检索质量。(3)针对同一网站中部分主题信息重复使用的现象,利用基于HTML树路径差异度的主题区分算法,结合HITS算法中的Hub值概念,提出了基于网站的噪音过滤算法,并给予了实验证明。通过算法可以有效地识别同一网站中的重复主题,通过过滤HTML页面中的重复主题可达到降噪处理的效果,不仅有助于用户高效获取有用信息,也有利于确定有效的图像资源并准确获取图像资源的相关文本,进而改进基于文本的Web图像检索的查准率。