论文部分内容阅读
随着聚类分析技术的不断发展,网站分析已成为当前人们关注的焦点。网站日志数据具有强大的功能和实用性,它能够对用户的访问行为进行有效记录,运用高效的聚类算法可以挖掘出潜在的用户行为规律,从而使得网站工作人员能够及时对页面结构进行调整和优化,为用户提供全面和个性化的服务,具有重要的意义。因此本文主要围绕高效聚类算法和网站分析应用这两个方面进行研究。模糊C均值算法是应用最广泛的一种模糊聚类方法,它引入了隶属度的概念,更加适合应用于网站分析中。本文在总结国内外关于模糊C均值算法研究现状的基础上,深入研究了该算法主要存在的聚类数目难以确定和数据分布过于密集对聚类分析造成影响等不足,并在此基础上提出改进的模糊C均值算法,主要思路是:引入Canopy算法来生成有效的聚类数目和初始聚类中心,解决确定聚类数目困难和随机初始聚类中心容易产生局部最优解的问题;将距离度量方法由欧几里得距离改成马哈拉诺比斯距离,消除数据密集分布不均匀的影响。网站分析具体是对网站日志数据的分析,本文采用改进模糊C均值算法对实际案例展开分析。首先通过数据清洗、用户识别和会话识别对日志数据进行预处理,得到用户访问页面数据;然后将改进模糊C均值算法应用于用户聚类和页面聚类过程中,根据聚类结果分析得到了具有相同行为规律的用户群体以及他们访问页面的需求和兴趣;最后将传统模糊C均值算法应用于页面聚类过程中,通过对比分析页面聚类分析结果,验证了本文所提出的改进模糊C均值算法的有效性和正确性。