论文部分内容阅读
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,各种数字化的信息每天以极高的速度增长,网络上积累了海量的数据。面对如此巨大的信息量,如何发现自己所需信息,成了困扰网络用户的一大难题。为了解决上述问题,Web挖掘技术应运而生。其中,Web日志挖掘是Web数据挖掘研究领域中一个重要的方面。
本文主要就是对web日志挖掘过程中的数据预处理算法以及聚类算法进行研究,主要工作如下:
(1)提出了双阈值用户事务算法。该算法有效解决了传统数据预处理算法对孤立点敏感以及挖掘出的用户模式兴趣度偏低的问题。该算法通过阈值设定来过滤掉偶然用户引起的访问记录以及用户不感兴趣的页面,得到一种有效的访问页面序列,即双阈值用户事务。实例结果证明了该算法的有效性。
(2)提出了改进的FCM算法。文中首先对FCM聚类算法进行了深入的分析,针对FCM算法存在初始值难于确定以及对孤立点比较敏感的问题,本文提出了改进的FCM算法,用于实现用户和页面的聚类。改进的FCM算法通过原子聚类算法帮助确定初始值以及消除掉大部分的孤立点数据,并通过对隶属度加权来进一步减小未被除去的孤立点数据的影响。本文将该算法的理论结果与实验结果进行了比较,比较结果说明了改进后的FCM算法的合理性及优越性。