基于粗糙集和模糊聚类的Web日志增量式挖掘研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:aghiiuooo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前随着互联网的蓬勃发展,尤其是电子商务的发展为越来越多的用户提供了Web服务。网民的选择增多,对网络服务的需求趋于理性和多样化,这为Web挖掘的发展提供了现实基础。对客户的群体行为进行分析,以获取在用户行为中反映出来的用户兴趣。对用户兴趣进行分析,改进Web站点结构,在竞争中占据有利地位,成为众多Web服务供应商急需解决的问题。所谓Web日志挖掘,是从存储在Web服务器中的日志数据中发现人们感兴趣的知识的过程。目前许多研究都集中在Web使用模式的挖掘上,旨在通过分析Web用户的行为模式,来发现用户的兴趣度,从而通过改进站点结构的方法来提高站点的吸引力。这种挖掘模式具有模糊性,传统的数学理论不足以完成这一任务,因此采用了模糊聚类和粗糙集的相关知识。本文将基于密度的DBSCAN算法与传统的SOFM网络相结合,提出了一种基于SOFM网络的增量式聚类算法。SOFM网络的特点就是适用于高维数据的聚类、自组织学习和训练能力强等,非常适合用于Web日志的挖掘。然而由于Web站点的访问需要表现出用户的多兴趣,而且随着用户兴趣的漂移,理应对聚类结果做出相应的改变,这一点是传统的SOFM网络无法解决的。针对这些问题,把DBSCAN算法与SOFM网络相结合,DBSCAN算法的特点在于可以用于发现任何形状的簇,对聚类的变化敏感,因此随着数据集规模的增量变化,这种算法可以发现用户兴趣的漂移。通过大量的样本数据对改进后的SOFM网络进行训练,使得参数和权值趋于稳定,为网络应用阶段做好准备。在网络应用阶段,把各参数和输出神经元的权值设置为训练之后的值,不再变化。对输入模式进行聚类,然后通过隶属函数更新输入模式的隶属度。对于大于隶属度阈值的神经元,进行输出。最后,本文设计了仿真实验。对某新闻网站的服务器日志数据进行了聚类,并进行了分析。这个模型与传统的聚类方法不同,具有增量式聚类的能力。首先用样本数据进行网络的训练,然后再对测试数据进行聚类。最后的实验结果从训练误差和聚类结果两方面进行了对比,实验结果表明本文所提出的算法在增量变化的数据集的聚类方面不管在效率还是准确性上都比传统的聚类算法优越,而且反映出了用户在Web访问上的多兴趣。
其他文献
近些年,世界各国自然灾害、人为灾害频发,面对这些突发事件时,如何快速地组建高效、可靠的应急通信网络为救援工作提供服务已经成为值得深入研究解决的技术问题。与国外发达
移动互联网技术迅速发展,移动智能终端设备层出不穷,论文分析了当前主流的智能终端以及当前移动跨平台中间产品,平台多样性与移动应用程序快速发展的需要构成一对矛盾。应用程序
U2TP是基于UML2.0的测试建模语言,对系统相关特征和测试模型特征分别进行建模和描述。在系统建模阶段使用U2TP将测试信息集成,不仅可以在系统建模初期就获得对测试的整体观念,还
随着web技术和信息技术的快速发展,如何从结构来源复杂的数据海洋中进行信息抽取和信息检索一个困难而又有重要实际用途的研究课题。文本分类能够有效处理和组织文本数据,方
人脸作为人体与生俱来的最自然最普通的生理结构之一,是生物特征识别研究的重要对象。经过近40年的研究和发展,人脸识别技术取得了长足的进步,许多优秀的人脸识别算法在理想情况
无线传感器网络目前面临着巨大的挑战,由于通常需要把无线传感器网络部署在环境恶劣,甚至人类无法进入的环境,因此网络无法得到有效的维护和更新,最糟糕的状况就是无线传感网络完
多元时间序列广泛存在于现实世界中,如航天、金融、医疗、气象等领域。由于用多个变量描述事物的状态,多元时间序列更贴近现实而非理想状态,因而对于多元时间序列数进行据挖
随着互联网的发展,以电子商务为代表的新型的商业模式正在以凶猛的势头和难以置信的速度,加快传统商业模式的升级与改变。人们足不出户就可以进行商务活动和网上购物等,电子商务
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘可以从海量的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,能为管理者的决策提
随着网络中文档数量的与日俱增,人们的检索需求也在不断增加,数学表达式是大量网络文档的重要组成部分,人们经常会希望通过数学表达式在搜索引擎中检索所需的相关文档,但目前