论文部分内容阅读
随着万维网的不断发展,用户从海量数据中提取有效信息变得越来越困难。聚类分析作为web数据挖掘的重要方法,对降低数据规模,过滤无效信息起着至关重要的重用。本文以基于web日志挖掘技术的用户会话聚类算法为研究对象,详细剖析了聚类分析技术的原理和应用。
本文首先探讨了web日志挖掘的日志预处理技术的流程和实现方法,它是用户会话聚类重要基础步骤。本文对日志采集,日志清洗,用户识别,路径补充,会话识别和事务识别各个日志处理阶段的任务和实现算法进行了细致的分析,并通过实验模拟和演示了日志预处理的整个过程,并给出了每一阶段的预处理算法运行的结果,实验结果表明了日志预处理算法的有效性和噪声去除能力。
然后,本文深入地研究了聚类分析技术的理论基础,对聚类分析处理的数据类型,所使用的数据结构和分类方法进行了总结和阐述。本文的重点部分放在对典型层次聚类算法ROCK的改进上,ROCK聚类算法利用共享邻居数,即连接的概念,来建立新的相似度量方法,以处理一些高维稀疏数据,但算法具有较高的时间复杂度和空间复杂度,以及过多的参的缺点。QROCK算法是已有的对ROCK算法的改进版,它利用连通子图的概念来改进ROCK算法,提高了执行效率,消除了参数期望聚类数。QROCK算法虽然一定程度了提高了算法效率,但依然有O(n2)的时间复杂度,对此,本文提出了一种适用于大规模用户会话聚类的算法-HROCK,算法以原子簇聚类为第一聚类阶段,进一步降低了聚类规模,第二聚类阶段在原子簇的基础上运行传统的ROCK聚类算法,这种两阶段混合聚类算法,具有近似线性的时间复杂度和很好的聚类效果,而且,HROCK算法通过引入图的孤立点的概念消除了算法对聚类数目参数的依赖。
其次,本文给出了一个基于本文所提出的大规模用户会话聚类算法HROCK的网页推荐系统原型设计,系统基于B/S架构,符合J2EE规范,由日志解析模块,日志预处理模块,用户会话聚类模块和网页推荐模块这几个重要模块构成,整体上分为离线聚类部分和在线推荐部分。
最后,本文总结了所做的工作,给出了聚类算法HROCK今后的改进方向。