Web日志频繁序列模式挖掘的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:buugly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展和不断普及,Web日志资源越来越丰富,如何分析和利用这些海量的数据是当前突出的问题。Web日志挖掘是网络信息处理的一门新技术,也是数据挖掘在Internet领域的一个重要应用。频繁序列模式挖掘是Web日志挖掘的一个重要研究方向,通过它可以用来改善Web站点的组织结构,提高网站的性能。序列模式挖掘(sequence pattern mining)是由R.Agrawal和R.Srikant在1995年提出的,给定一个序列集,其中每一个序列由项集构成,然后给定用户确定的最小支持度阈值,序列模式挖掘就是去发现所有的频繁子序列(即:这些子序列的出现频率不小于给定的最小支持度)。Web日志挖掘的过程包括三个步骤:数据预处理、模式发现和模式分析。本文主要对数据预处理和模式发现两个步骤进行研究。数据预处理是Web日志挖掘的重要环节,它决定着模式发现和模式分析算法的性能。Web日志挖掘的数据预处理主要包括5个阶段:数据净化、用户识别、会话识别、路径完善和事务识别等。本文对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务器日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,主要提出了一种基于时间和引用的启发式方法来构造会话。序列模式挖掘同关联规则挖掘具有很大的相似性,但也有不同的地方,本文通过比较序列模式和关联规则,更清楚地体现了序列模式的特点。当前的频繁序列模式的挖掘算法一般都是基于Apriori的改进算法,这种算法由于每生成一个k-频繁项集,都需要扫描整个事务数据库,因此在查找最大频繁项集上花费的时间代价太大,而本文采用了一种基于后缀树的频繁序列模式的挖掘算法有效的解决了Apriori算法的不足。后缀树是一种数据结构,存储了给定字符串的所有后缀的压缩树。建筑后缀树所花费的时间只与字符串的长度有关,而查找最大频繁序列模式是通过对后缀树的深度优先遍历来实现的,由于这两种算法都可以在线性时间内完成,因而大大提高了效率。通过实验验证,本文采用的基于时间和引用的启发式会话方法得出的用户会话序列更真实地反应了实际用户序列,同时,采用基于后缀树遍历的频繁序列模式挖掘算法更加快捷、方便。
其他文献
随着计算机技术的迅速发展,许多工作需要靠计算机按照一定的执行规则自动实现,特别是企业业务流程的自动化或半自动化实现。工作流管理系统为实现这一目标提供了新的技术手段
目前,疲劳驾驶在车辆肇事中占了相当大的一部分。疲劳往往容易引起瞌睡,但是许多疲劳的驾驶员却常常不知道自己已经处在瞌睡的危险状态之中,因此需要设计一种瞌睡监测的方法
无线传感器网络被认为是未来改变世界的十大技术之首,但有限的计算、存储和通信能力,尤其是严重受限的能量使其应用前景面临巨大挑战,无线传感器网络在应用之前需要解决很多
随着信息技术的不断发展,特别是大数据技术的发展使得对海量用户数据的处理成为可能,从数据中泄露用户隐私的问题现如今也非常严重。在校园生活中学生和教师也会产生各种各样
通信网络随着Internet的飞速发展,从传统的布线网络发展到了无线网络。作为无线网络的重要分支,无线局域网(WLAN)以它优越的灵活性和便捷性在网络应用中发挥日益重要的作用。但
聚类分析作为一种新兴的数据处理技术,近年来已成为数据挖掘中一个非常活跃的研究方向。同时随着实际应用中数据流的广泛出现,不仅需要考虑提高聚类质量,如何提升聚类处理速度也
无线传感器网络(WSN)是信息科技发展最活跃和最重要的技术之一,具有广泛的应用前景,其发展和应用将会给人类的生活和生产的各个领域带来深远影响。如何提高传感器网络的能效
虚拟现实技术为包括农业在内的众多领域中的可视化研究提供了新的方法。虚拟植物(Virtual Plant)就是虚拟现实技术在农业领域的应用。它是应用计算机模拟植物在三维空间中的
机器人技术在过去的几十年取得了巨大进展,已经广泛应用于工业,医疗,教育以及家庭服务等方面。然而,在某些特殊条件下,用硬质材料制成关节并依靠电机驱动的刚体机器人的应用
复杂网络常用来抽象表示某个实际系统。网络中的节点代表实际系统中的个体对象,连边代表个体对象之间的联系。在许多真实系统中,节点个体都是具有行为决策能力的主观个体。当节