论文部分内容阅读
随着Internet的迅速发展,人们对网络的依赖已经越来越大,而网络中的信息量随着网络用户及网络资源的发展而迅速膨胀,人们在信息的海洋中,也逐渐失去方向,用户如何从这巨大的信息量当中寻找出很小的一部分感兴趣的信息,商家如何改善自己的经营方式,网站如何改善自己的站点,这些问题的提出就引出了一个新的研究方向,即Web挖掘的研究,而Web挖掘当中,最重要的一个研究方向即为Web日志挖掘。所谓Web日志挖掘就是将Web日志数据引入到传统的数据挖掘当中,挖掘出知识的过程。Web日志数据本身与传统数据相比有一些独特的特点,这对有关的研究工作也带来了一定的挑战。目前,对于Web挖掘,尤其是Web日志挖掘的研究越来越多。本文通过学习大量的文献资料,系统的介绍了Web日志挖掘、聚类技术的基本理论,并针对部分算法的缺陷提出改进方法,并通过实验进行论证。首先,介绍了当前的研究现状,分别包括国内和国外的研究情况,相比之下,国外的研究比较成熟,而国内主要的研究依然处于理论研究阶段。然后,介绍了数据挖掘以及Web日志挖掘的理论内容,包括挖掘的过程以及挖掘的数据特点等。其次,重点介绍了Web日志挖掘的数据预处理的理论知识以及目前的研究方法,数据预处理的过程分别为数据清理、用户识别、会话识别、路径补充和事务识别。针对目前的研究情况,提出了一种预处理的改进方法,在会话识别时,使用用户访问树的方法,在不知道网站拓扑结构的情况下,依然能够得到用户的会话,并且可以省略掉路径补充的步骤,直接得到用户的事务。在事务识别过程当中,对事务当中的每个页面进行分类并记录,分别记为导航页面和内容页面,如果事务中所有的页面均为导航页面,将其看作是无效事务,将其去除,大大的减少了数据库的容量,但并不减少数据的信息量,这对后期的研究工作也是非常有意义的。最后,详细介绍了聚类分析的相关理论知识,并给出了页面兴趣度、相似度的定义,然后重点介绍了K-means算法,并对其优缺点进行分析。针对K-means算法原有的初始中心点的选择问题、噪声数据的影响等提出改进方法,使用一种模糊的划分原则将整个数据集分类,再使用密度的方法对这个划分进行调整,从而得出K个高密度的区域。这样得出的K值比依靠经验获得的K值更合理,并从这K个高密度区域分别选择一个点作为初始中心点,这比随机选择的K个初始中心点得到的聚类结果更稳定、更加合理。同时,在对均值计算时引入权重,目的是为了减小噪声数据对均值点的确定的影响。计算加权均值得到的质心能够更加靠近簇的距离较近的数据堆,从而削弱了包含孤立点的簇计算质心时偏离数据堆的情形。然后利用标准数据集进行实验,验证了改进算法的有效性,最后将此算法应用到Web日志数据当中,对用户事务进行聚类,得到的聚类结果中簇内相似度更高,要优于原始的K-means算法得到的聚类结果。最后,对本文进行总结并提出在研究过程所面临的部分问题但还没有进行深入研究的地方,提出了未来的研究方向。