论文部分内容阅读
近年来,互联网技术得到了前所未有的巨大发展。它给我们带来了一种全新的生活方式,对我们的生活带来了极大的方便。互联网成功的关键在于其庞大的信息容量以及它的内容不需要集中进行控制。这在为用户获取信息提供极大的便利的同时也使得用户对信息的查找犹如大海捞针。新的信息获取技术-搜索引擎技术应运而生,并得到了飞速的发展。Web技术已经发展到现在的2.0,目前的互联网中的网页已经不再是其诞生时以文本信息为主的模样,网页中大量的多媒体信息(图片,视频剪辑,音乐)使得我们的互联网内容变得丰富多彩。这同时也促使了我们对搜索内容提出了更高的要求,比如我们想搜索某些图片。加上基于文本的搜索技术的成熟,所以本文就以基于文本的Web图片搜索引擎为研究对象,在对其相关技术进行了详细的分析的基础上,提出了一个较完整的系统设计方案,并且实现了一个初步的基于文本的Web图片搜索引擎系统。本文首先介绍了图片搜索的背景,并对当前一些主流的图片搜索引擎进行了简要的分析。之后简介了搜索引擎相关的技术,包括其典型架构、网页抓取、信息提取、索引、结果相关性排序等,作为本文的最基本的理论基础。本文所使用的网页库的spider(WIRE),在第三章进行了相关的介绍。本文在第四章通过细致地分析HTML文件的”img”标记、”a”标记、图片URL、网页标题、网页的超链接文本、关联的”a”和”img”结构、”meta”标记、”table”结构、图片周围文本等部分的结构特点,并利用真实数据、网页实例进行实验验证,提出了9种Web图片相关信息的提取模式,用于从这些结构中提取与图片相关的信息,以保证提取到的信息相关性程度较高。本章还研究了信息的具体的提取方法,我们还根据启发式规则对无用图片的过滤进行了研究,提高了系统中图片可用度;并通过统计分析总结出HTML文件中表现出的一些潜在规律,这些规律对于图片的重要程度分析提供了一些线索。本文末章提出了一个详细的基于文本的Web图片搜索引擎系统的结构设计并实现,阐述了其工作的流程:获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引、提供查询。最后对我们的这个初步系统进行了简单的评测。