论文部分内容阅读
随着互联网技术的快速发展,搜索引擎已成为许多人生活和工作中的重要工具。但是,由于网络信息的快速增长和用户搜索要求的不断提高,通用搜索引擎已经不能满足用户对于信息检索服务的需求。在许多网页中,网页内容具有时间敏感性,比如商业新闻、出版信息、网上商店的折扣信息等。根据用户提出的时态检索请求准确查找到相应网页对用户很有价值。但是主流搜索引擎只能提供针对网页更新时间的查询,缺乏对网页内容时间的查询能力,由此降低了查询结果的有效性。因此建立一个时态信息与文本信息相结合的网络搜索引擎是未来搜索引擎发展的重要方向之一。本文以时态文本搜索引擎为背景,重点研究了结合Web网页中的时间信息与关键字信息的时态文本索引问题。论文通过对通用的关键字索引结构和时态索引结构进行分析和改进,提出了几种时态文本索引结构设计思路,并进行了理论和实验上的比较,最终得出了性能评测较优的一种索引。在此基础上,对性能较优的索引进行再次改进,进一步提高索引性能,提高搜索引擎的查询效率。本文的主要贡献如下:(1)提出了基于时态文本搜索引擎的混合索引结构。针对时态文本搜索引擎中的网页的时间信息的特征,本文将网页的时间信息分成两部分,一个是更新时间,一个是内容时间。在此基础上,我们提出了首要时间的概念,将它加入到索引处理中。我们以B+树、倒排文件和MAP21树为基础,研究并比较了五种混合索引结构。通过在仿真数据集与真实数据集上的实验,在索引大小、磁盘I/O时间以及查询时间的性能比较,得出“先倒排索引后MAP21树”的索引结构具有较好的性能。(2)提出了基于哈希的时态文本索引结构。基于哈希的时态文本索引结构是对先前验证的较好的“先倒排文件后MAP21树”的时态文本索引结构的改进。针对网络的时间特征,特别地,对于时间信息的内容时间的特征的具体分析,尤其是对于首要时间的研究,将内容时间区间转换成内容时间点,将MAP21树用哈希表进行替换,构造出新型的时态文本索引结构,提高查询性能。通过真实数据集上的实验,在索引大小,重建时间以及五种类型查询的查询时间的比较,得到哈希的时态文本索引结构比“先倒排文件后MAP21树”的索引结构更优,更适合作为时态文本搜索引擎的索引结构。