基于关联规则的分类算法研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:menlyseven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联分析是一种在海量数据库中揭示目标潜在关系的重要的数据挖掘方法,在一篮子分析等商业数据挖掘领域得到广泛的应用,关联分析的算法研究在近40年来一直是数据挖掘的重要内容。本文研究了关联分析算法及其在分类问题。 ㈠对Apdori和FP-Growth两种重要的关联规则挖掘方法的优点和缺陷进行了分析,并在此基础上提出了一种由多项集至一项集的横向挖掘思路FP-Length算法,该算法在比Apriori-type算法有很大的速度提升的前提下,有效的解决了FP-Growth漏解的不足,而且在速度和灵活度上突显其非常适合于处理条件关联规则挖掘问题。 ㈡将关联分析算法延伸至分类问题上,创新的提出一种基于类别的关联规则挖掘算法CACA,该算法对数据库中的属性按类别进行预筛选,从而大大减少搜索组合的数目,将关联分类算法传统的“规则挖掘-规则梳理(建立分类器)-分类”的三步骤模式改造为两步骤模式,设计出有序规则树,既缩短了算法耗时,又建立起以紧规则为导向的搜索机制提的能平台。 ㈢对紧规则进行重新定义并证明了新的紧规则定义具有唯一性。结合CACA算法,提出了两条面向分类规则的剪枝规则和一条创新性的面向紧规则集的剪枝规则。紧规则的定义和剪枝规则的提出,在结构上完备了以紧规则为导向的搜索机制和进一步提高了算法的速度。数据试验证明,剪枝技术提高了算法速度,缩小搜索空间。 ㈣结合聚类分析方法对现有的属性模糊划分方法进行改进,使模糊区间更贴近数据分布状态。通过改造CACA算法的存储结结构,成功将模糊机制引入到基于类别的关联规则挖掘算法(CFACA),改善了模糊关联过分类算法的速度性能。最后,将CFACA算法应用到移动通信业的客户成长性问题中,分析其应用效果,并对搜索到的分类规则作为一种经验知识加以分析,探讨客户成长性的特点。
其他文献
可扩展标记语言(XML)作为Web上数据表示和交换的标准已经获得了巨大的成功,XML数据成了继关系型数据以后最为普遍的一种数据形式。但随着XML在数据交换,应用集成等方面的广泛应
本论文应用随机分析、随机微分方程、鞅论等方法,研究了最优控制模型,并将研究成果应用于金融保险、风险控制、收益分配等经济领域.本文组织结构如下:  第1章简要介绍随机最
今年夏季,某单位准备通过竞聘从自己单位内部选聘一位工作人员,该单位上级领导对准备发出的《竞聘通知》要求道: “这个通知怎么能行,没有大专以上文凭、中级职称的人,不是人
本文研究以下两类著名的非线性方程的周期波解以及它们的极限.第一类是Camassa-Holm方程 ut+2kux-uxxt+auux=2uxuxx+uuxxx. (1) 第二类是广义Camassa-Holm方程 ut+
在许多实际的工程问题中,常常会遇到大量的模糊信息,例如在判别边坡稳定性以及分析覆盖型岩溶地面塌陷形成机理及危险性的过程中,所涉及的工程地质条件及岩土体性质参数大多具有
本文研究生物荧光断层成像问题在扩散近似模型下的数学理论和重建算法。在理论上,本文提出并证明了该问题的等价矩形式,给出了点光源和球形光源的等价性理论,并研究了唯一性理论
河南省汤阴农信社党委在全辖支部和党员中深入学习贯彻“三个代表”重要思想,党建工作以抓清收不良贷款,促进不良贷款“双降”主题,积极开展“共产党员带头清不良”活动,取
期刊
安全公钥加密方案的设计和分析是密码学中一个十分重要的问题,特别是适应性选择密文安全的加密方案,是近年来密码学界的研究热点。无论是提出新的加密方案并证明其选择密文安
本文考虑的是具有部分耗散的三维磁流体方程解的整体存在唯一性问题,我们证明了如果初始值u0,b0满足‖u0‖H1+‖b0‖H1≤(E),其中(E)是一个充分小的正数,那么我们所考虑的方程具
本文共分为六章. 第一章为综述,简要介绍了马尔可夫决策过程的历史背景,连续时间马尔可夫决策过程、离散时间马尔可夫决策过程和受约束马尔可夫决策过程的研究方法与现状,以及