论文部分内容阅读
随着互联网的迅速发展,面对这样一个全球最大的信息资源宝库,搜索引擎为人们提供了获取信息的入口,得到了极大的流行。但由于Web多元化信息的指数级增长和人们需求的多样化,通用搜索引擎返回的结果已经不能满足人们对个性化信息检索服务的要求,于是主题搜索引擎应运而生。与通用搜索不同,主题搜索引擎仅仅专注于某一领域,为特定领域的用户提供更为精确、更全面、更及时的搜索服务。它的很多技术与通用搜索引擎类似,但是还有一些自己独特的技术和一些新的需要解决问题,成为近年来研究的热点。传统的主题搜索引擎仅支持基于关键字的搜索方式,因此在许多情况下难以有效地表达用户的查询需求,例如在新闻主题搜索引擎中查询“最近三天内关于甲型流感的新闻”。通过对网页信息的分析,时态信息是网页的一个本质属性,比如网页的修改时间、新闻网页中蕴含的新闻事件时间等。因此,如果能够利用网页的时态信息来增强主题搜索引擎的效率,使用户可以表达时态相关的查询需求,同时搜索引擎自身也提供时态查询处理能力,则可以有效地提高主题搜索引擎的性能。本文围绕基于时态信息的主题搜索引擎开展了若干关键技术的研究,重点探讨了时态主题搜索引擎的设计与实现、主题爬虫、搜索结果的时态排序等问题。本文的主要贡献可归纳为:(1)通过分析Web结构和网页特征,提出并实现了一个混合主题爬虫。该爬虫首先对抓取下来的网页使用基于VIPS的网页分析算法计算网页与主题的相关性并选取相关链接,然后结合元搜索技术来提高爬虫跨越Web社区的能力,使其在保有精确度的同时具有好的召回率。(2)研究了结合不同网页时间的搜索结果排序算法,提出了三种适合不同时态语义搜索的网页排序算法。这类算法分别就用户对网页的内容时间、修改时间及双时态时间的查询需求,对传统的PageRank算法中的转移概率和跳转概率进行了改进,提高了排序结果的精确性。(3)设计并实现了一种能够根据网页的内容时间和修改时间进行Web网页检索的主题搜索引擎,该系统同时支持文本检索和时态检索。实验表明,基于时态信息的主题搜索引擎具有比单纯的基于文本关键词的主题搜索引擎具有更好的查询表达能力和查询处理能力。