论文部分内容阅读
WWW的出现对传统的信息检索技术提出了挑战,在传统的信息检索技术没有突破性进展的现状下,从Web数据本身的特点出发,充分地挖掘Web上最充足的资源——超链接,通过超链接进行搜索,建立有效的Web信息检索的模型,找到我们需要的信息,本文正是本着这样一个前提,对页面的链接分析算法作了深入细致的研究,从理论,算法和应用三个层次上,发掘超链接在Web检索方面的作用,主要包括以下几个方面: 首先,在对当前已有的链接算法进行分析和实现的过程中我们发现:基于不同的数据环境和检索要求,对不同类型的链接,算法所采用的预处理方法、迭代规则和迭代的终止条件都会影响查询的结果。提出对于封闭数据集合链接分析算法的约束条件,通过对比封闭数据集合和实际的Web环境中的超链接的分布,将这些约束扩展到实际Web环境中,更准确地预测链接分析算法的作用;实验表明在此约束条件下,链接分析算法能够有效地提高检索效率。 其次优化与查询无关的事前链接分析算法,得到优化的事前链接分析算法Modilink(),该算法给出了超链接的预处理方法,调整的归一化方法,完备的迭代终止判定规则,实验表明该算法可以从整体上提高算法的迭代效率。 提出了基于页面质量因素扩展的与查询相关的事后链接分析算法QHA1(quality based hyperlink analysis algorithm),该算法将算法Modilink()得到的结果作为评价页面质量的因素引入超链接的权值指定算法中,使超链接能够比较客观地反映所链接的页面之间互相影响的程度:此外,将超链接的来源也考虑到超链接的权值指定上,结合页面质量因素提出另外一个优化的事后链接分析算法QHA2。对于优化的事后链接分析算法我们从理论上证明了算法的正确性和可行性,并在实验中验证了这些算法。 借鉴潜在语义分析中的方法,本文将矩阵奇异值分解引入事后链接分析算法中,提出基于SVD分解的滤噪算法,运用矩阵的奇异值分解的方法进行无关页面和超链接的滤噪,并将其应用于与查询相关的事后链接分析算法的初始基本集合的构造;提出了优化的事后链接分析算法QHA3,QHA4,算法有效地控制了主题漂移现象的产生,为准确的查找提供了一个很好的途径。