论文部分内容阅读
随着因特网的不断发展,网络信息的增长与个人精力有限的矛盾在不断增加,为了解决这个矛盾,可以进行Web日志挖掘。Web日志可以看作是用户上网留下的痕迹,对其进行挖掘分析可以获得用户访问Web的各种模式,一般是为了得到用户群体的共同行为和共同兴趣,或者个人用户的检索偏好和习惯等。
本文的主要内容如下:
(1)阐述了本篇论文的研究背景及Web数据挖掘的研究现状,并分别对数据挖掘、Web数据挖掘和Web日志挖掘进行了介绍。
(2)分析研究了Web日志的数据预处理技术,它是整个数据挖掘过程的第一部分,是为了挖掘算法能够正常地运行。因此,数据预处理技术也是Web日志挖掘中的重要研究方向。
(3)介绍了浅网搜索引擎的一般原理,然后分析了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及两种在其基础上的改进算法,分别指出了三个算法中的不足和需要改进的地方。最后,提出了一个改进算法,并通过实验对几种不同的算法进行了对比。
(4)介绍了深网概念和深网产生的原因,然后在现有相关研究成果的基础上,对深网搜索引擎中几个关键技术进行了分析,并针对已有深网数据库分类方法实现成本高昂、效率低下的问题,提出了一种基于Web日志的深网数据库分类算法,并通过实验检验了方法的分类效果。