论文部分内容阅读
目前随着互联网的蓬勃发展,尤其是电子商务的发展为越来越多的用户提供了Web服务。网民的选择增多,对网络服务的需求趋于理性和多样化,这为Web挖掘的发展提供了现实基础。对客户的群体行为进行分析,以获取在用户行为中反映出来的用户兴趣。对用户兴趣进行分析,改进Web站点结构,在竞争中占据有利地位,成为众多Web服务供应商急需解决的问题。所谓Web日志挖掘,是从存储在Web服务器中的日志数据中发现人们感兴趣的知识的过程。目前许多研究都集中在Web使用模式的挖掘上,旨在通过分析Web用户的行为模式,来发现用户的兴趣度,从而通过改进站点结构的方法来提高站点的吸引力。这种挖掘模式具有模糊性,传统的数学理论不足以完成这一任务,因此采用了模糊聚类和粗糙集的相关知识。本文将基于密度的DBSCAN算法与传统的SOFM网络相结合,提出了一种基于SOFM网络的增量式聚类算法。SOFM网络的特点就是适用于高维数据的聚类、自组织学习和训练能力强等,非常适合用于Web日志的挖掘。然而由于Web站点的访问需要表现出用户的多兴趣,而且随着用户兴趣的漂移,理应对聚类结果做出相应的改变,这一点是传统的SOFM网络无法解决的。针对这些问题,把DBSCAN算法与SOFM网络相结合,DBSCAN算法的特点在于可以用于发现任何形状的簇,对聚类的变化敏感,因此随着数据集规模的增量变化,这种算法可以发现用户兴趣的漂移。通过大量的样本数据对改进后的SOFM网络进行训练,使得参数和权值趋于稳定,为网络应用阶段做好准备。在网络应用阶段,把各参数和输出神经元的权值设置为训练之后的值,不再变化。对输入模式进行聚类,然后通过隶属函数更新输入模式的隶属度。对于大于隶属度阈值的神经元,进行输出。最后,本文设计了仿真实验。对某新闻网站的服务器日志数据进行了聚类,并进行了分析。这个模型与传统的聚类方法不同,具有增量式聚类的能力。首先用样本数据进行网络的训练,然后再对测试数据进行聚类。最后的实验结果从训练误差和聚类结果两方面进行了对比,实验结果表明本文所提出的算法在增量变化的数据集的聚类方面不管在效率还是准确性上都比传统的聚类算法优越,而且反映出了用户在Web访问上的多兴趣。