面向网站分析的模糊C均值算法改进研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:qipiaolang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着聚类分析技术的不断发展,网站分析已成为当前人们关注的焦点。网站日志数据具有强大的功能和实用性,它能够对用户的访问行为进行有效记录,运用高效的聚类算法可以挖掘出潜在的用户行为规律,从而使得网站工作人员能够及时对页面结构进行调整和优化,为用户提供全面和个性化的服务,具有重要的意义。因此本文主要围绕高效聚类算法和网站分析应用这两个方面进行研究。模糊C均值算法是应用最广泛的一种模糊聚类方法,它引入了隶属度的概念,更加适合应用于网站分析中。本文在总结国内外关于模糊C均值算法研究现状的基础上,深入研究了该算法主要存在的聚类数目难以确定和数据分布过于密集对聚类分析造成影响等不足,并在此基础上提出改进的模糊C均值算法,主要思路是:引入Canopy算法来生成有效的聚类数目和初始聚类中心,解决确定聚类数目困难和随机初始聚类中心容易产生局部最优解的问题;将距离度量方法由欧几里得距离改成马哈拉诺比斯距离,消除数据密集分布不均匀的影响。网站分析具体是对网站日志数据的分析,本文采用改进模糊C均值算法对实际案例展开分析。首先通过数据清洗、用户识别和会话识别对日志数据进行预处理,得到用户访问页面数据;然后将改进模糊C均值算法应用于用户聚类和页面聚类过程中,根据聚类结果分析得到了具有相同行为规律的用户群体以及他们访问页面的需求和兴趣;最后将传统模糊C均值算法应用于页面聚类过程中,通过对比分析页面聚类分析结果,验证了本文所提出的改进模糊C均值算法的有效性和正确性。
其他文献
自从2008年的金融危机之后,国内各行业都在经受惨痛洗礼的同时寻求摆脱危机阴影的突破口。然而就当其他行业不景气的时候,房地产行业却一枝独秀,就像获得生机一般不断地蓬勃发展
支持向量机作为一个非常有效的机器学习方法,已经广泛应用于小样本、高维的分类和回归问题中。然而,在构建支持向量机模型时,一个非常重要的问题是如何优化模型参数与核参数。针
在中国独特的传统文化和经济条件下,随着经济水平的发展和提高,市场竞争也越来越剧烈,人们的工作和生活压力越来越大。因此人们开始关注幸福水平。人们越来越倾向于将幸福感