WWW上链接分析算法的若干研究

被引量 : 12次 | 上传用户:sun593792820
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW的出现对传统的信息检索技术提出了挑战,在传统的信息检索技术没有突破性进展的现状下,从Web数据本身的特点出发,充分地挖掘Web上最充足的资源——超链接,通过超链接进行搜索,建立有效的Web信息检索的模型,找到我们需要的信息,本文正是本着这样一个前提,对页面的链接分析算法作了深入细致的研究,从理论,算法和应用三个层次上,发掘超链接在Web检索方面的作用,主要包括以下几个方面: 首先,在对当前已有的链接算法进行分析和实现的过程中我们发现:基于不同的数据环境和检索要求,对不同类型的链接,算法所采用的预处理方法、迭代规则和迭代的终止条件都会影响查询的结果。提出对于封闭数据集合链接分析算法的约束条件,通过对比封闭数据集合和实际的Web环境中的超链接的分布,将这些约束扩展到实际Web环境中,更准确地预测链接分析算法的作用;实验表明在此约束条件下,链接分析算法能够有效地提高检索效率。 其次优化与查询无关的事前链接分析算法,得到优化的事前链接分析算法Modilink(),该算法给出了超链接的预处理方法,调整的归一化方法,完备的迭代终止判定规则,实验表明该算法可以从整体上提高算法的迭代效率。 提出了基于页面质量因素扩展的与查询相关的事后链接分析算法QHA1(quality based hyperlink analysis algorithm),该算法将算法Modilink()得到的结果作为评价页面质量的因素引入超链接的权值指定算法中,使超链接能够比较客观地反映所链接的页面之间互相影响的程度:此外,将超链接的来源也考虑到超链接的权值指定上,结合页面质量因素提出另外一个优化的事后链接分析算法QHA2。对于优化的事后链接分析算法我们从理论上证明了算法的正确性和可行性,并在实验中验证了这些算法。 借鉴潜在语义分析中的方法,本文将矩阵奇异值分解引入事后链接分析算法中,提出基于SVD分解的滤噪算法,运用矩阵的奇异值分解的方法进行无关页面和超链接的滤噪,并将其应用于与查询相关的事后链接分析算法的初始基本集合的构造;提出了优化的事后链接分析算法QHA3,QHA4,算法有效地控制了主题漂移现象的产生,为准确的查找提供了一个很好的途径。
其他文献
就中职学生群体的整体心理状况而言,他们较同龄段学生更具有心理复杂性,而积极心理学的广泛传播及应用,将为中职班主任解决中职生复杂心理问题提供良好的解决方式。中职班主
随着全球经济一体化的加深,并购浪潮开始席卷我国,企业并购是产业结构调整的重要进程,而并购融资则是并购活动中最为重要的一环,并购融资能否顺利进行将直接决定并购的最终成
<正>课堂教学节奏,主要是指在教学过程中,教与学、问与答、讲与练等活动交互出现的各种有规律的发展变化。课堂教学过程是师生情感抒发和交流的过程,它不是平板单调的,而是波
<正>对中国的化妆品来说,零售的渠道大致可以分为:商超、专营店、专业店、美容院、网购、直销、药店和医疗渠道。在电子商务高速发展的中国,单看淘宝平台,化妆品目前已是仅次
<正>电子商务通常是指是在全世界广泛的商业贸易活动中,随着网络技术的不断发展,在网络环境下,以浏览器的应用方式,买卖双方可以在不见面的情况下进行各种商贸活动,实现消费
汉语缩略语具有很强的文化性、专业性和时代性,字数精简而信息量大。如何在短时间内将其高效地译出是英语口译的一大难题。译者应迅速抓住汉语缩略语的核心含义,寻找对应的英
<正>一年一度的双十一网购节已经过去,刚刚在美国上市的阿里巴巴除了公布571亿的交易额之外,并没有更大的宣传。但是这个已经被公认为全民的节日,依旧被所有的媒体大书特书,
期刊
随着超级市场、专卖店等新型业态的不断发展壮大以及发达国家零售业的不断侵入,在机遇来临的同时,中国百货业也面临着越来越多的挑战。本文通过中国百货业发展现状的分析,探
会议
在烟草行业组织结构调整过程中,地市级烟草公司成为独立的经营实体,对财务管理工作提出了新的要求。文章分析了安顺市烟草公司财务核算中心的组建与运作,以期对地市级烟草公