搜索引擎技术中的Web结构挖掘算法研究

来源 :山西大学 | 被引量 : 4次 | 上传用户：ryan1114

【摘要】

：

今天，人们寻找WWW上的信息，通常是在搜索引擎上执行一个查询。很多搜索引擎是基于关键词的，对于每一个查询，他们返回一个与查询内容匹配的Web网页的序列。对于宽话题查询，这样的搜

【作者】

：

陈鑫卿

【机构】

：

山西大学

【出处】

：

山西大学

【发表日期】

：

2003年01期

【关键词】

：

Web挖掘 Web结构挖掘搜索引擎权威枢纽

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

今天，人们寻找WWW上的信息，通常是在搜索引擎上执行一个查询。很多搜索引擎是基于关键词的，对于每一个查询，他们返回一个与查询内容匹配的Web网页的序列。对于宽话题查询，这样的搜索引擎经常得到一个较大的含有相关文档的集合，这些文档大多数是用户不感兴趣的。然而，Web网页中存在着丰富的超链接结构信息，利用Web结构挖掘技术可以从中挖掘出有用的信息来改进搜索引擎技术。在这种情况下，Jon Kleinberg(在他的论文Authoritative sources in a hyperlinked environment)介绍了下面的概念： 1．权威网页——包含与查询匹配的网页中最具有权威性的网页的一个小的子集，该集合中的网页有很多入链接。 2．枢纽页——那些指向多个权威网页的网页。 Kleinberg认为权威和枢纽之间有一种相互加强的关系：好的枢纽指向好的权威，而好的权威被好的枢纽所指向，并根据这种关系设计了一种计算权威网页的Hub／authority算法。Brin和Page也提出了Page-rank算法，并将它应用于搜索引擎google。但是，上述的两种算法还存在一定的不足，文章通过对这两个算法进行分析(研究他们的共性及不足)提出了一种更为一般的计算权威网页的算法；同时还定义了一部分概念用于对这些算法进行评价；最后将新提出的发现权威网页的算法和Hub／authority算法在人工拓扑上和局域网上进行了试验并对实验结果做了比较，得出了该算法在发现权威网页时比Hub／authority算法好。

其他文献

网络学习的个性化信息过滤系统研究

网络教育随着信息技术的发展。已经逐渐发展成为一种新的学习方式。网络学习打破空间、时间的限制，为需要学习的用户提供了一种获得知识、接收教育的新途径。网络教学为传统教

学位

网络学习个性化信息过滤学习对象元数据XML

PKI在Intranet中的应用研究

随着企业网的发展,需要在开放网络中不明身份的实体之间进行通信。为了在这种环境中提供机密性、认证、数字签名和完整性等服务,迫切需要在企业网中建立一个通用的安全基础机

学位

企业网公钥基础设施证书管理系统证书

电子招投标系统公正性与安全性研究与实现

该文在深刻分析现有招投标系统的基础上,主要研究如何提高电子招投标系统的公正性以及安全性.论文的第一部分为公正性研究,即匿名性研究,是利用基于椭圆曲线上ElGamal秘密系

学位

电子政务电子招投标秘密共享技术盲签名技术密钥更新

基于扩展时间Petri网的协议描述与验证研究

协议是计算机网络的命脉，协议复杂性的提高导致协议工程学科的出现。协议工程的主要活动包括协议描述、验证、性能分析、自动实现和一致性测试，其中协议描述和分析是整个协议工

学位

协议工程时间Petri网形式描述技术IEEE802.2LLC3

嵌入式Linux实时性研究与探索

本文由项目开发中有关嵌入式Linux的移植工作，引出了关于研究与探索嵌入式Linux实时性问题的讨论。本文首先介绍了嵌入式系统及其发展现状，阐述了项目设想和项目意义。接着

学位

嵌入式Linux实时进程调度抢占

基于Agent的个性化远程教学系统的研究与设计

网络技术的发展为远程教育提供了一片崭新的天地，现代远程教学系统是一种以网络为基础的远程教育，它继承了传统远程教育方式中不受时间、空间和地点限制优点，学习者可以足不出产

学位

AgentXML个性化远程教学等级成绩数量化

多元时间序列中关联规则的发现——以股票为例

近年来,数据挖掘领域出现了很多有关时间数据的研究,时间序列分析是其中非常重要的一部分.这些数据可以很容易的从科学研究和金融领域得到.例如:每日气温、产品输出、基金和

学位

时间序列关联规则跨事务动态时间规整

分布式环境下网络服务管理的研究

随着通信技术和计算机技术的发展,各种新兴的网络服务不断涌现,对于服务管理的需求变得越来越强烈。通过服务的管理有利于提高运营商的网络管理水平和保证客户服务质量。关于

学位

服务管理管理业务云网络管理参考模型服务关联模型移动代理

嵌入式Linux硬实时性的研究与实现

本文主要讨论了为满足嵌入式领域的需要，使Linux系统支持硬实时性的研究与实现。文章首先对嵌入式系统、嵌入式Linux操作系统和实时操作系统进行了简要的介绍，并对Linux作为嵌

学位

嵌入式操作系统Linux硬实时性双内核机制实时硬件抽象层

超声图像中甲状腺结节的自动分割和分类

学位

搜索引擎技术中的Web结构挖掘算法研究

与本文相关的学术论文