Web网页的时态文本索引研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ruocich
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,搜索引擎已成为许多人生活和工作中的重要工具。但是,由于网络信息的快速增长和用户搜索要求的不断提高,通用搜索引擎已经不能满足用户对于信息检索服务的需求。在许多网页中,网页内容具有时间敏感性,比如商业新闻、出版信息、网上商店的折扣信息等。根据用户提出的时态检索请求准确查找到相应网页对用户很有价值。但是主流搜索引擎只能提供针对网页更新时间的查询,缺乏对网页内容时间的查询能力,由此降低了查询结果的有效性。因此建立一个时态信息与文本信息相结合的网络搜索引擎是未来搜索引擎发展的重要方向之一。本文以时态文本搜索引擎为背景,重点研究了结合Web网页中的时间信息与关键字信息的时态文本索引问题。论文通过对通用的关键字索引结构和时态索引结构进行分析和改进,提出了几种时态文本索引结构设计思路,并进行了理论和实验上的比较,最终得出了性能评测较优的一种索引。在此基础上,对性能较优的索引进行再次改进,进一步提高索引性能,提高搜索引擎的查询效率。本文的主要贡献如下:(1)提出了基于时态文本搜索引擎的混合索引结构。针对时态文本搜索引擎中的网页的时间信息的特征,本文将网页的时间信息分成两部分,一个是更新时间,一个是内容时间。在此基础上,我们提出了首要时间的概念,将它加入到索引处理中。我们以B+树、倒排文件和MAP21树为基础,研究并比较了五种混合索引结构。通过在仿真数据集与真实数据集上的实验,在索引大小、磁盘I/O时间以及查询时间的性能比较,得出“先倒排索引后MAP21树”的索引结构具有较好的性能。(2)提出了基于哈希的时态文本索引结构。基于哈希的时态文本索引结构是对先前验证的较好的“先倒排文件后MAP21树”的时态文本索引结构的改进。针对网络的时间特征,特别地,对于时间信息的内容时间的特征的具体分析,尤其是对于首要时间的研究,将内容时间区间转换成内容时间点,将MAP21树用哈希表进行替换,构造出新型的时态文本索引结构,提高查询性能。通过真实数据集上的实验,在索引大小,重建时间以及五种类型查询的查询时间的比较,得到哈希的时态文本索引结构比“先倒排文件后MAP21树”的索引结构更优,更适合作为时态文本搜索引擎的索引结构。
其他文献
云计算是在分布式计算、并行计算、网格计算基础上发展起来的新兴商业计算技术。它一经提出便受到了IT技术各个行业的追捧,随后被Microsoft、IBM、Amazon和Google等大公司相
无线传感器网络(Wireless Sensor Networks, WSNs)的出现引起了世界范围内的广泛关注,其应用已经由最初的军事国防领域迅速扩展到卫生医疗、环境科学以及我们的日常生活中。
改革开放以来,我国涂料工业发展呈日新月异的态势,其中中小型涂料企业占据了绝大部分。中小型涂料生产企业普遍存在面向订单生产的特点和综合成本较高、生产调度基本依靠人工
空对地视频交通监控以其直观、方便和价格低廉等特点,日益受到智能交通领域研究者的高度重视。其核心在于使用安装在无人机等浮空平台上的摄像机感知交通场景,通过关键技术的
随着经济的发展,顾客需求的多样化和个性化增加了企业在实际生产中的不确定性和动态性因素。为了满足顾客的需求,企业开始注重资源的合理配置。因此,研究多目标车间调度问题
无线传感器网络是21世纪备受关注的研究热点之一,已广泛应用于军事国防、医疗护理、城市管理、地震监测、设备监测、建筑物结构监测等明显带有实时性需求的领域。本课题来源
随着我国经济、工业的不断发展,资源的利用也在逐步增加,随之而来的就是资源污染、短缺的问题,其中最为显著的就是水资源。我国人口众多,在水资源占有方面远低于其他国家,人
随着计算机信息处理技术和通信技术的快速发展,每天都会产生大量的数据,对于一些资源有限的设备,如何在处理这些大量信息的同时保障其安全性是一个至关重要的问题。一种可行
针对当前词语相似度计算方法存在的局限性:基于语义词典的词语相似度计算方法依赖字典进行相似度计算,因此无法对字典未登录词语进行计算;基于语料库的词语相似度计算方法在计算
RFID系统有许多种类的安全与隐私保护方式,其中采用安全认证协议是性价比最优的,所以运用最广。这些安全认证协议大多是突出了两个主要途径:一种是哈希锁方案,需要随机数发生