基于时态信息的主题搜索引擎的研究与实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:dlufey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,面对这样一个全球最大的信息资源宝库,搜索引擎为人们提供了获取信息的入口,得到了极大的流行。但由于Web多元化信息的指数级增长和人们需求的多样化,通用搜索引擎返回的结果已经不能满足人们对个性化信息检索服务的要求,于是主题搜索引擎应运而生。与通用搜索不同,主题搜索引擎仅仅专注于某一领域,为特定领域的用户提供更为精确、更全面、更及时的搜索服务。它的很多技术与通用搜索引擎类似,但是还有一些自己独特的技术和一些新的需要解决问题,成为近年来研究的热点。传统的主题搜索引擎仅支持基于关键字的搜索方式,因此在许多情况下难以有效地表达用户的查询需求,例如在新闻主题搜索引擎中查询“最近三天内关于甲型流感的新闻”。通过对网页信息的分析,时态信息是网页的一个本质属性,比如网页的修改时间、新闻网页中蕴含的新闻事件时间等。因此,如果能够利用网页的时态信息来增强主题搜索引擎的效率,使用户可以表达时态相关的查询需求,同时搜索引擎自身也提供时态查询处理能力,则可以有效地提高主题搜索引擎的性能。本文围绕基于时态信息的主题搜索引擎开展了若干关键技术的研究,重点探讨了时态主题搜索引擎的设计与实现、主题爬虫、搜索结果的时态排序等问题。本文的主要贡献可归纳为:(1)通过分析Web结构和网页特征,提出并实现了一个混合主题爬虫。该爬虫首先对抓取下来的网页使用基于VIPS的网页分析算法计算网页与主题的相关性并选取相关链接,然后结合元搜索技术来提高爬虫跨越Web社区的能力,使其在保有精确度的同时具有好的召回率。(2)研究了结合不同网页时间的搜索结果排序算法,提出了三种适合不同时态语义搜索的网页排序算法。这类算法分别就用户对网页的内容时间、修改时间及双时态时间的查询需求,对传统的PageRank算法中的转移概率和跳转概率进行了改进,提高了排序结果的精确性。(3)设计并实现了一种能够根据网页的内容时间和修改时间进行Web网页检索的主题搜索引擎,该系统同时支持文本检索和时态检索。实验表明,基于时态信息的主题搜索引擎具有比单纯的基于文本关键词的主题搜索引擎具有更好的查询表达能力和查询处理能力。
其他文献
随着网络的迅猛发展,电子邮件已经成为人们现实生活、工作中必不可少的信息交流手段。但随之而生的垃圾邮件,占用了大量的网络资源,浪费了网民的宝贵时间,造成了巨大的经济损
sCPU-dBUS体系结构是一种面向嵌入式应用的高安全性体系结构,是一种单CPU双总线体系结构。该体系结构在现行计算机体系结构的基础上,用本地总线和网络总线两条总线取代原有的
随着Internet的迅速普及,宽带业务大量涌现,人们对带宽的需求日益增长,作为解决“最后一公里”问题的最佳方案,以太无源光网络EPON应运而生。但EPON的点到多点(P2M)结构,使其
随着视频监控系统的规模越来越大,视频监控内容由目视解释转变为自动解释,实现智能视频监控是视频监控技术发展的必然。基于图像处理的视频交通事件检测系统利用计算机视觉、
在当今信息化时代,破除壁垒、实现信息融合共享是时代的主流。本文基于遥感影像数据信息融合和共享的目的,设计并实现一种基于NOSQL的遥感影像数据管理与分析系统。该系统目
人体皮肤实时渲染技术是当前计算机领域的一个重要课题。皮肤是一种多层透明/半透明材质,对其渲染难点是建立皮肤的次表面散射效果模型。 已有的针对于多层透明/半透明材质
随着无线通信、电子和微机系统等技术的发展和日益成熟,使得无线传感器网络在全世界范围内得到广泛应用。传感器网络在军事、环境监测、医疗、工业生产等领域有着广泛的应用
学位
操作系统的安全特性从操作系统诞生之日就成为研究人员关注的焦点,如何构建一个安全的操作系统正是当前安全研究的热点课题。通过访问控制对系统进行加固,能够有效地增强操作
科里奥利质量流量计由于其精度高、测量流体范围广、可做多参数测量等优点,在工业上获得了广泛的运用。它通常由一次仪表和二次仪表组成。一次仪表部分包括振动管、激振器和传感器等。二次仪表的任务是对传感器的输出信号进行处理,通过测量其相位差的大小来计算流量。早期的科氏流量计的信号处理主要采用模拟电路,但是模拟信号处理系统存在很多缺点,本课题采用数字信号处理方法来处理科氏流量计信号。本文模拟实际环境提出合理的