基于Web日志的搜索引擎相关技术的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:hailongsky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的不断发展,网络信息的增长与个人精力有限的矛盾在不断增加,为了解决这个矛盾,可以进行Web日志挖掘。Web日志可以看作是用户上网留下的痕迹,对其进行挖掘分析可以获得用户访问Web的各种模式,一般是为了得到用户群体的共同行为和共同兴趣,或者个人用户的检索偏好和习惯等。   本文的主要内容如下:   (1)阐述了本篇论文的研究背景及Web数据挖掘的研究现状,并分别对数据挖掘、Web数据挖掘和Web日志挖掘进行了介绍。   (2)分析研究了Web日志的数据预处理技术,它是整个数据挖掘过程的第一部分,是为了挖掘算法能够正常地运行。因此,数据预处理技术也是Web日志挖掘中的重要研究方向。   (3)介绍了浅网搜索引擎的一般原理,然后分析了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及两种在其基础上的改进算法,分别指出了三个算法中的不足和需要改进的地方。最后,提出了一个改进算法,并通过实验对几种不同的算法进行了对比。   (4)介绍了深网概念和深网产生的原因,然后在现有相关研究成果的基础上,对深网搜索引擎中几个关键技术进行了分析,并针对已有深网数据库分类方法实现成本高昂、效率低下的问题,提出了一种基于Web日志的深网数据库分类算法,并通过实验检验了方法的分类效果。
其他文献
随着Internet技术的不断发展特别是网络搜索引擎技术的发展,用户想要得到自己需求的网络链接成为越来越容易的事情。近几年,越来越多的领域搜索成为网络搜索引擎的又一新兴方
云通常和各种天气现象密切相关。地球上平均有1/3到1/2的地区覆盖着云层。云是天气过程的重要扮演者。近年来,随着数字化卫星云图资料的出现,对卫星云图进行定量分析已成为各国
碰撞检测是计算机动画、计算机图形学等领域的重要课题。近几年来,随着虚拟现实技术和分布式仿真技术的兴起,碰撞检测问题成为一个研究热点。快速的碰撞检测对提高虚拟环境的真
网格中的副本技术是对等网络分布式存储中一个基本的、重要的环节。通过合理的副本技术可以提高网络利用率并达到更好的负载均衡。在副本技术研究中,设计副本技术在不同领域的
业务规则技术是实现企业业务规则表述、维护、部署和执行,将业务规则与应用代码相分离,从而最终实现高效灵活地企业控制的核心技术。研究和推广业务规则技术对企业信息化具有
近年来,随着电子器件的发展,计算机的处理能力有显著提高。但是,仅仅依靠电子器件的发展而达到的速度提高,远不能满足现代科学、工程技术和其他许多领域对高速运算能力的需要。这
网格变形技术是近年来计算机图形学领域的一个研究热点,已广泛应用于影视动画、游戏娱乐等商业领域。随着许多学者对网格变形技术的深入研究,在网格变形领域出现了三次技术上的
网格环境相比传统网络更容易被病毒和木马程序攻击,网格除了为用户之间提供数据传输之外,还需要提供安全性更高的程序运行环境,所以如何保证资源的安全共享比资源的使用更为
众所周知,在我们获取信息的各种类型中,图像信息占据了多数部分的比例,由于图像内容直观,并且所含信息量也相当丰富,因此较容易被人们所接受。然而随着环境的污染使得近年来
随着计算机及网络技术的飞速发展,数字作品传播和拷贝变得越来越方便,数字作品的信息安全和版权保护也成为迫切需要解决的问题。数字水印是近年来在信息安全领域兴起的保护知