论文部分内容阅读
Web是人类历史上承载数据最丰富的信息库,但在Web上查找所需要的信息却很困难。由于Web的海量规模、异构、动态等特性,使得Web IR比经典IR表现出更大的挑战性,广泛地引起了各方面的研究兴趣。本文研究了Web文本信息检索技术,将该领域当前林林总总的研究分为四大类:经典IR流派、Metadata流派、数据库流派和链接分析流派。经典IR流派继续研究IR领域理论,而其他三种流派则抓住Web与经典IR检索对象,即文献集合的重要区别:结构性特征,在各自原有理论背景下发展起来的。本论文的工作主要包括以下方面:提出面对极其海量、异构的检索对象,将Web看作无结构文档集合的常规的“万能”搜索引擎不是好的解决方式。我们提出将Web看作是有结构的数据对象,构造多个不同检索领域、覆盖范围和检索粒度、服务特色的搜索引擎,它们相互合作形成资源消耗最低、服务最优的Web IR服务框架。提出位于Web IR服务框架根节点处的搜索引擎,检索对象是整个Web,这类搜索引擎应该全局性地覆盖索引整个检索范围,有重点地把握Web上最重要最主流的数据和结构,提出以具有相同主题的页面组取代页面作为搜索引擎的基本功能单位,提供粗粒度的概念检索服务。提出用链接分析技术挖掘发现页面之间的关系,聚类形成一个个具有各自主题的页面组,同时,链接分析技术找出的页面组包含的也是Web中质量最好最重要的一部分页面。页面组与页面相比有主题突出、稳定、数量少的特点,同时也吻合用户的大多数信息需求和Web页面隐性自发组织情况。提出采用主题式取代全文方式进行页面组的标引,避免将大量无用信息、重复信息都存入索引库。标引时着从Web和页面的结构出发,挖掘利用已经存在的、他人作的标引性文本,以及重要文本作为标引文本。论文比较了采用这种标引方式和常规标引方式构造的系统各自的检索效果。提出在检索能力之外,用查准率、前趋度作为定量评价搜索引擎检索质量的参数。为了检验Web IR中的上述技术,我们构造了大规模综合型搜索引擎原型系统SAInSE,并给出了相同的查询在SAInSE和Google上的检索实例。从实例对比可见,当查询词涉及多个主题时,SAInSE能够将相关页面分类(页面组)提交;SAInSE的页面组超越了字面匹配,对