基于前缀树Tire的关联规则挖掘算法研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:jianming_zhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘领域中的一个重要问题,它在商业领域的成功应用,使它成为数据挖掘中最成熟、最主要的研究内容之一.要发现关联规则,首先需要挖掘频繁项集,而Tire这种前缀树数据结构能够高效的存储频繁项集.为了加快事务数据库访问效率,且随着计算机硬件性能的不断发展,计算机主存容量的不断提升,可以考虑把事务数据库压缩到内存中去.另外,对候选频繁项集的剪枝一直是提升关联规则挖掘算法效率的重要方式.从这两个方面围绕Tire数据结构进行的关联规则算法研究对目前和将来的研究工作具有重要的实际意义和广泛的应用前景.本文首先介绍了关联规则的基本概念和关联规则挖掘算法一般分类,宽度优先挖掘算法和深度优先挖掘算法.并以具体事务数据库为例,将其中经典的Apriori算法和FP-growth算法从数据结构至算法描述作出详细阐释,分析比较了两种算法各自的优缺点.其次,在阐释了事务数据库的二维数组压缩存储和Tire前缀树的数据结构的基础上,论文提出了采用压缩数据库和动态剪枝的关联规则挖掘算法CDDP,该算法使用一种二维数组压缩原数据库,同时借鉴了频繁项集挖掘算法DF中的频繁项集Tire树存储思想,在Tire树构建过程中,利用Tire树性质进行动态剪枝,缩减候选频繁项集数量.在关联规则挖掘阶段,提出了Tire树中频繁项集的查找算法.讨论了算法实现过程中的一些细节问题,对算法的时空复杂度分析结果表明算法在长模式数据集上具有良好的时空效率.最后,在详细介绍了关联规则算法实验人工数据合成器的基础上,选取两个人工合成数据集和两个自然世界中的真实数据集,将CDDP算法与DF算法和Apriori算法一起进行对比实验,实验结果表明CDDP算法有自己擅长数据集类型.与DF算法相比,CDDP的动态剪枝算法在处理频繁单项集稳定,以长模式为主的数据集时,效率极高;而DF算法的剪枝方法在超市型的数据集时(也就是存在很多短模式和大量频繁单项集的数据库),具有一定的优势.而与Apriori算法相比,CDDP算法在任何类型的数据集上具有明显的时空效率.
其他文献
粗糙集理论是波兰学者Z.Pawlak于1982年提出的一种能够有效处理不精确和不确定信息的数学工具。该理论把知识看作是不可分辨关系,并引入上、下近似的概念来刻画知识的不确定
随着移动智能设备的快速普及,Android操作系统以其优异的性能,获得了巨大的成功。但同时,Android系统也成为了许多恶意应用的攻击目标。为了限制应用软件的行为,Android系统
近年来,随着网络通信技术和信息传播多样化的发展,统一通信发展迅猛,越来越多的企事业单位和个人开始使用统一通信来满足工作和日常生活的信息交流。但由于现在局域网都有NAT
互联网络的发展,使得人们不得不关注网络空间中存在的信息生态问题,对网络信息生态状况的定量评价以及相应度量模型的出现,已经成为网络信息生态研究领域中最迫切的需求之一
无线传感器网络作为信息技术的三大支柱之一,应用领域日渐增多。无线传感器网络是一种自组织网络,由大量传感器节点组成。传感器节点感知网络内各种物理或环境条件,且彼此间相互通信,具有非常有限的资源,尤其是能量方面。另外,无线传感器网络环境中有许多不可预见的因素,比如现场环境、衰减、盲区等,这些因素不仅会造成传感器节点故障,还会造成数据传输时产生错误和丢包的问题。本文主要是针对无线传感器网络的可靠数据传输
学位
命名实体识别的指的是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类.命名实体识别的主要过程有实体边界的识别和确定实体的类型(如人名、地
代码自动生成(Automatic Code Generation),顾名思义,是指用手工编写的生成工具来自动生成代码。具体说就是通过生成工具读取某种形式的抽象定义文档,生成可编译的代码。  
现代导航计算机要求系统具有效率高、成本低、功耗小、接口丰富等特点,并且符合高精度、高稳定性和实时性的要求。基于现代导航计算机的上述特点和要求,本文设计了一个以Xili
随着校园网络的逐渐发展,其规模越来越大,应用也日益繁多,然而目前校园网中的应用软件多数是基于Internet设计研发的,这些软件并没有很好的利用校园网络环境的特殊性,一些针
基于虚拟人进行通信是一个相当有趣的课题,吸引了诸如计算机科学、人工智能及心理学等学科的学者的注意,并且有广泛的应用前景。目前,大部分虚拟人动画系统或是通过视觉/语音