基于web日志挖掘的用户会话聚类算法的研究与应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:cxycsnf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网的不断发展,用户从海量数据中提取有效信息变得越来越困难。聚类分析作为web数据挖掘的重要方法,对降低数据规模,过滤无效信息起着至关重要的重用。本文以基于web日志挖掘技术的用户会话聚类算法为研究对象,详细剖析了聚类分析技术的原理和应用。 本文首先探讨了web日志挖掘的日志预处理技术的流程和实现方法,它是用户会话聚类重要基础步骤。本文对日志采集,日志清洗,用户识别,路径补充,会话识别和事务识别各个日志处理阶段的任务和实现算法进行了细致的分析,并通过实验模拟和演示了日志预处理的整个过程,并给出了每一阶段的预处理算法运行的结果,实验结果表明了日志预处理算法的有效性和噪声去除能力。 然后,本文深入地研究了聚类分析技术的理论基础,对聚类分析处理的数据类型,所使用的数据结构和分类方法进行了总结和阐述。本文的重点部分放在对典型层次聚类算法ROCK的改进上,ROCK聚类算法利用共享邻居数,即连接的概念,来建立新的相似度量方法,以处理一些高维稀疏数据,但算法具有较高的时间复杂度和空间复杂度,以及过多的参的缺点。QROCK算法是已有的对ROCK算法的改进版,它利用连通子图的概念来改进ROCK算法,提高了执行效率,消除了参数期望聚类数。QROCK算法虽然一定程度了提高了算法效率,但依然有O(n2)的时间复杂度,对此,本文提出了一种适用于大规模用户会话聚类的算法-HROCK,算法以原子簇聚类为第一聚类阶段,进一步降低了聚类规模,第二聚类阶段在原子簇的基础上运行传统的ROCK聚类算法,这种两阶段混合聚类算法,具有近似线性的时间复杂度和很好的聚类效果,而且,HROCK算法通过引入图的孤立点的概念消除了算法对聚类数目参数的依赖。 其次,本文给出了一个基于本文所提出的大规模用户会话聚类算法HROCK的网页推荐系统原型设计,系统基于B/S架构,符合J2EE规范,由日志解析模块,日志预处理模块,用户会话聚类模块和网页推荐模块这几个重要模块构成,整体上分为离线聚类部分和在线推荐部分。 最后,本文总结了所做的工作,给出了聚类算法HROCK今后的改进方向。
其他文献
面向服务架构(SOA)是一种以服务为中心的体系结构,是一套抽象的概念和软件架构的指导方针,是信息技术与具体业务之间的桥梁。SOA通过将原有的应用和资源转变为可共享的标准服务
随着可视化信息技术的不断发展,视频信息的传输已经成为当今信息传递的方向和目标。因此,视频压缩技术自然成为了学者们的研究热点。近年来,由MPEG和VCEG的专家组成的联合视
在税控样机研制成功后的下一个目标之一就是研发一对多的网络税控器,本文正是基于此背景,重点研究利用多线程等技术实现一对多的数据处理模型。本课题在对GB18240.7税控管理系统和一对多总体设计的模型架构进行概要叙述后,着重就一对多税控处理的总体算法进行研究,在对税控器端所采用的服务模型经过反复论证的基础上,最终确定税控器端采用有线局域网环境下的tcp连接与多线程服务器形式作为模型实现的框架。由于税控
随着我国经济的迅速发展,人们的物质生活质量有了很大的提高,但环境问题也接踵而来,给人们的生活带来了严重的影响,环境保护已经成为我国亟待解决的问题,然而传统的环境管理
人脸识别是模式识别和计算机视觉领域的一个重要研究方向。本文针对在资源受限的嵌入式设备PDA中开发人脸识别系统出现的问题,结合目前的人眼定位和人脸识别方法的优点,提出了
随着信息时代的迅速发展,大数据应用日益火热。图搜索问题是大数据应用中的经典问题,BFS算法是图搜索中的核心算法也是Graph500测试基准中的核心搜索程序。BFS算法具有访存量
Internet是一个规模巨大的网络世界,人们习惯于利用域名而不是IP地址来访问和使用网络资源。DNS技术解决了网络域名到IP地址的映射问题。随着IPv4逐渐向IPv6过渡,128位的IPv6地
随着网络通信的迅速发展,流媒体技术在网络教学、视频会议、视频监控等领域的应用给人们带来了极大的便利和乐趣。在上述这些应用中,如何将本地计算机的屏幕显示数据实时、清晰
P2P技术的迅速发展,使其成为构建广域网中大型分布式系统的强有力工具。P2P采用完全分布式结构,网络中的节点既充当客户端角色获取其他节点的资源或服务,同时又充当服务器角色向
随着互联网技术与应用的迅速发展,Web服务作为一种新兴的Web应用模式及远程访问标准,很好地解决了异构平台上的数据和应用的整合与共享问题。但是,传统的Web服务缺乏语义信息