论文部分内容阅读
随着万维网的发展,Web上的信息资源正在以前所未有的速度增长。面对海量的数据,用户常常无法从中找到自己所需要的数据。如何使用户能够在网络中快速,准确的找到所需要的数据是Web信息检索面临的挑战。 搜索引擎技术的出现,为用户提供了一种在Web中检索信息的简单的方法,使用户能够通过关键字进行相关资源的搜索。但是用户所需的资源种类不同,通用搜索引擎难以提供给用户足够的资源,因此出现了针对特定领域的搜索服务。RSS新闻搜索就是这类应用,它仅仅搜索RSS新闻资源。同时,越来越多的网络应用采用了B/S模式,因此出现了许多集成在浏览器上的搜索服务,并提供其他方便用户的附加功能。 本文首先介绍了信息检索技术的基本概念和模型,介绍了搜索引擎和元搜索引擎的基本结构;对基于链接分析的搜索引擎排序算法PageRank和HITS进行了分析和对比,在此基础上提出了基于概念的权重PageRank改进算法以及为页面标记概念的两种方法;提出了基于用户反馈的结果融合排名算法;详细介绍了RSS新闻搜索平台的结构,数据库模式设计,搜索操作的性能优化方法,主客观结合的新闻排名机制;最后介绍了一种浏览器插件,它主要提供一种为页面进行概念标记的方法,同时提供元搜索接口等其他服务。