搜索引擎技术中的Web结构挖掘算法研究

来源 :山西大学 | 被引量 : 4次 | 上传用户:ryan1114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
今天,人们寻找WWW上的信息,通常是在搜索引擎上执行一个查询。很多搜索引擎是基于关键词的,对于每一个查询,他们返回一个与查询内容匹配的Web网页的序列。对于宽话题查询,这样的搜索引擎经常得到一个较大的含有相关文档的集合,这些文档大多数是用户不感兴趣的。 然而,Web网页中存在着丰富的超链接结构信息,利用Web结构挖掘技术可以从中挖掘出有用的信息来改进搜索引擎技术。在这种情况下,Jon Kleinberg(在他的论文Authoritative sources in a hyperlinked environment)介绍了下面的概念: 1.权威网页——包含与查询匹配的网页中最具有权威性的网页的一个小的子集,该集合中的网页有很多入链接。 2.枢纽页——那些指向多个权威网页的网页。 Kleinberg认为权威和枢纽之间有一种相互加强的关系:好的枢纽指向好的权威,而好的权威被好的枢纽所指向,并根据这种关系设计了一种计算权威网页的Hub/authority算法。Brin和Page也提出了Page-rank算法,并将它应用于搜索引擎google。 但是,上述的两种算法还存在一定的不足,文章通过对这两个算法进行分析(研究他们的共性及不足)提出了一种更为一般的计算权威网页的算法;同时还定义了一部分概念用于对这些算法进行评价;最后将新提出的发现权威网页的算法和Hub/authority算法在人工拓扑上和局域网上进行了试验并对实验结果做了比较,得出了该算法在发现权威网页时比Hub/authority算法好。
其他文献
网络教育随着信息技术的发展。已经逐渐发展成为一种新的学习方式。网络学习打破空间、时间的限制,为需要学习的用户提供了一种获得知识、接收教育的新途径。网络教学为传统教
随着企业网的发展,需要在开放网络中不明身份的实体之间进行通信。为了在这种环境中提供机密性、认证、数字签名和完整性等服务,迫切需要在企业网中建立一个通用的安全基础机
该文在深刻分析现有招投标系统的基础上,主要研究如何提高电子招投标系统的公正性以及安全性.论文的第一部分为公正性研究,即匿名性研究,是利用基于椭圆曲线上ElGamal秘密系
协议是计算机网络的命脉,协议复杂性的提高导致协议工程学科的出现。协议工程的主要活动包括协议描述、验证、性能分析、自动实现和一致性测试,其中协议描述和分析是整个协议工
本文由项目开发中有关嵌入式Linux的移植工作,引出了关于研究与探索嵌入式Linux实时性问题的讨论。 本文首先介绍了嵌入式系统及其发展现状,阐述了项目设想和项目意义。接着
网络技术的发展为远程教育提供了一片崭新的天地,现代远程教学系统是一种以网络为基础的远程教育,它继承了传统远程教育方式中不受时间、空间和地点限制优点,学习者可以足不出产
近年来,数据挖掘领域出现了很多有关时间数据的研究,时间序列分析是其中非常重要的一部分.这些数据可以很容易的从科学研究和金融领域得到.例如:每日气温、产品输出、基金和
随着通信技术和计算机技术的发展,各种新兴的网络服务不断涌现,对于服务管理的需求变得越来越强烈。通过服务的管理有利于提高运营商的网络管理水平和保证客户服务质量。关于
本文主要讨论了为满足嵌入式领域的需要,使Linux系统支持硬实时性的研究与实现。文章首先对嵌入式系统、嵌入式Linux操作系统和实时操作系统进行了简要的介绍,并对Linux作为嵌
学位