Web日志频繁序列模式挖掘算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zhangsao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志频繁序列模式的挖掘是Web日志挖掘的重要组成部分,主要用来发掘站点和用户交互的频繁路径。利用这些频繁序列模式,可以简单的分析出用户的访问序列模式规律、进行建模以及对Web站点进行优化调整,以更好地满足用户访问需求来提升用户体验,进而增加访问用户数量,因而对形成智能化Web站点和个性化推荐有其特殊的意义。针对Web日志频繁序列模式挖掘这一研究领域,目前已经提出一系列算法,比如GSP、Apriori、PSP、G序列、图形遍历、FreeSpan、PrefixSpan、Disc-all、MEMISP、MFS、LAPIN-SPAM、WAP-tree、PLWAP-tree和最近的NGCWAP-tree等。本文针对PLWAP-tree算法存在:1)当树的深度或者宽度超过计算机字长时,判断节点间的位置关系时需要多次移动指针,导致搜索空间挖掘过慢;2)重复遍历头表节点,因此消耗了更多的时间;3)需要更多内存空间来存储PLWAP-tree等缺陷,探索新的改进算法,主要研究内容及取得成果如下:首先,在现有PLWAP-tree算法基础上,提出了一种存储空间更节省、时间效率也略有提升的改进算法PREWAP-tree。PREWAP-tree算法使用树状结构来存储Web访问序列,通过具有相同前子序列的序列共用路径节点来构建PREWAP树,基于前缀序列进行逐步挖掘,得到所有的频繁项集。在先序遍历PREWAP树构建头表的同时,记录当前节点的先序遍历序号和指向其最大先序遍历序号的后代节点的指针,结合节点的先序遍历次序和指向最大先序遍历次序的后代节点指针,来判断节点间的位置关系,遍历头表队列挖掘PREWAP-tree。进而,在上述改进算法PREWAP-tree基础上,提出了另一种改进算法BFWAP-tree。BFWAP-tree算法首先构建BFWAP树,使相同前缀子序列每重复出现一次时路径上的所有节点权值依次递加一。之后,在先序遍历BFWAP-tree建立头表的同时,记录每个节点所在的子分支序号,在挖掘过程中借助于节点所在分支序号判断其是否为首节点。该算法避免了使用位置码标识节点位置关系,在数据量规模较大的情况下,时间效率和空间节省方面都有更好改进。最后,将本文提出的两种改进算法PREWAP-tree和BFWAP-tree与现有PLWAP-tree、WAP-tree和NGCWAP-tree算法进行了对比实验和结果分析。分别在一定支持度和不同数据量下以及一定数据量和不同支持度下,对各个算法的时间消耗和内存消耗进行对比和分析,验证了本文提出算法的有效性,准确性以及两种算法在时间和空间上的改进效果。
其他文献
随着网络的普及,Internet上存在越来越丰富的史学信息,历史研究工作者和历史学家们通过网络获取所需要的信息,但同时也面临着Web上信息不断地快速增长所带来的海量数据的挑战
随着网格研究的不断深入,面对日益复杂的网格应用需求,在资源有限的条件下,如何对资源进行分配和管理,满足各种应用的不同服务质量要求,提高资源利用率,成为网格研究的一个热
无线传感器网络是一种特殊的Ad hoc网络,它综合了现代网络无线通信技术、嵌入式计算技术、分布式信息处理技术、传感器技术等先进技术,有着十分广阔的应用前景,是目前网络通
移动Ad hoc网络是一种特殊的无线移动网络,其路由设计问题是无线移动网络领域的热点问题。随着制造工艺和设备性能的不断进步以及基础理论研究的不断深入,移动Ad hoc网络开始
网络教学是伴随着互联网出现的一种新的学习方式,它为解决信息时代知识迅速增长与传统的学习方式之间的矛盾提供了良好的解决方案,它是信息、网络技术与教育培训产业的完美结
随着计算机图形学和三维数字技术的快速发展,针对人脸的三维建模技术已成为了国内外学者研究的重点和热点,并已取得许多的成果,但仍存在着一定的缺陷和问题。首先,目前大部分
数据中心是云计算中数据运算、交换、存储的中心。近年来以虚拟机为粒度的虚拟机放置管理成为云数据中心能耗管理、实现动态可伸缩提供的重要支撑技术。在虚拟机初始化放置阶
随着社会的进步和IT行业的发展,三维重建技术在各个领域中发挥越来越重要的作用。在三维重建的过程中,点云数据的配准是关键技术,因此三维数据的配准研究是重建技术中的研究
BP神经网络是一种多层神经网络,其权值调整原则是按照误差梯度下降原则进行调整,该神经网络具有很强的自适应及容错能力,在解决模式识别及预测问题时常被作为重要的工具来使用。
在当今信息社会里,信息技术和信息系统对于现代企业和现代社会的重要性越来越高,系统管理成为网络管理发展中的一个重要方面。本文结合网络行为监控系统(Network Behavior Ob