基于粗糙集和自组织神经网络的web日志挖掘聚类研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:wuzhiqing1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志挖掘是从服务器端纪录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式。利用Web日志挖掘,我们可以知道用户对网站的浏览模式,通过分析这些数据可以帮助理解用户的行为,从而改进站点的结构或为用户提供个性化的服务。本文采用聚类分析的方法对用户进行聚类,按照一个类别的用户具有相同兴趣的原则,为用户提供个性化服务。本文使用自组织神经网络和粗糙集进行聚类分析。自组织神经网络具有一定的拓扑结构,依靠多个神经元间的协同作用完成模式识别。自组织神经网络在学习过程中采取竞争机制,选取唯一神经元获胜,然后实际情况是可能有一组神经元都非常匹配输入向量。针对这一不精确性,本文引入了粗糙集的上近似与下近似的概念来解决这一问题。基于粗糙集的自组织神经网络很好的解决了判断获胜神经元的不确定性,首先选取唯一获胜神经元,然后选取次获胜神经元。如果次获胜神经元不为空,则将次获胜神经元与唯一获胜神经元的并集作为获胜神经元,并对不同情况采用不同的学习方法。经过训练的神经网络最终应用于模式识别阶段。传统的聚类方法只能将每个用户聚类至一个类别,即假设一个用户只有一种偏好,却忽略了用户有多种偏好的情况。本文提出的基于粗糙集的自组织神经网络能够解决这一问题,利用不精确的概念,将用户分至一个或一个以上类别,提取用户的多兴趣。本文最后将基于粗糙集的自组织神经网络日志挖掘方法与传统的方法进行测试比较。实验证明,该方法在学习阶段和应用阶段都有较好的结果。
其他文献
跨入新时代,计算机融入到人们生活的方方面面,随之也产生了数量巨大的数据需要处理。云计算、物联网、物理学、生物学、环境生态学等领域更需要对海量数据进行挖掘和处理,这
随着信息技术的不断发展和应用,数据收集手段越来越丰富,海量存储也越来越普遍。由此,一种新的操作算子Skyline查询被引入了数据库领域,目的是要查找数据集中不被其它点支配
无线传感器网络路由协议已经成为目前一项研究热点。与传统网络路由协议的区别在于由于节点的简单和能量的有限,在设计路由协议时要把节点的能量消耗、计算能力和存储资源等
随着视频监控技术的发展,基于运动目标检测跟踪的视频监控技术已被广泛地应用于民用、军事、工业生产等领域。应用环境的日益复杂和多样化,对监控系统的性能提出了更高的要求。
本文以业界当前流行的SOA企业架构思想为基础,对异构分布式应用系统之间的通信进行了广泛的研究。在对XML、SOAP、WSDL、WebService等技术分析和研究的基础上,构建了一个轻量
结对编程(Pair Programming)是极限编程(Extreme Programming,简称XP)的十二个实践之一。结对编程是一个非常直观的概念,简单的说是指两位程序员肩并肩地坐在同一台电脑前合
分子动力学(MD)模拟是一种使用牛顿经典力学模拟微观粒子运动来获得原子体系的宏观性质的模拟方法。GROMACS是一款由格罗宁根大学研发的用来做分子动力学模拟的主流软件,目前
随着网络技术的发展,以软件定义网络(Software Defined Network,SDN)[1]和网络功能虚拟化(Network Function Virtualization,NFV)[2]为代表的新的设计理念和新的技术手段诞生
卫星-地面混合网络具有很大的网络覆盖范围和很强的应急通信能力,但是组网复杂,应用场景多变,导致往返时延和丢包率范围很大,可靠高效的传输数据面临巨大挑战。本文研究混合
数字地球技术的发展,使得电子地图逐渐成为各项研究的基础。但是随着我国改革开放的不断深入,经济的迅速发展,城市布局发生了重大变化,新建、改建、迁建的工程项目不断增加,电子地