基于极团模式的关联规则挖掘算法的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:zhjjchj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则是数据挖掘研究的一个重要内容,通过采用支持度和置信度去除非频繁项获得目标关联规则。对支持度分布严重倾斜的数据集挖掘时,传统的频繁项集挖掘算法不能有效适用于一些重要的挖掘任务,支持度阈值很难确定,过高则会有置信度较高的规则遗漏,过低则会得到大量可信度较低的冗余规则。挖掘关联规则效率和准确性,是数据挖掘研究的重点。极大团是无向图G最大的全连通分量,旨在将关联性强、可能产生极大频繁项的项集生成极大团,之后再针对每一个极大团求解极大频繁项集。并快速产生所有可靠关联规则,提高时间效率。本文通过对经典算法APriori算法和FP-growth算法的工作原理和机制以及极大团算法等理论进行深入研究,总结它们的优缺点。在此基础上,针对目前关联规则存在的问题展开研究,主要的研究工作如下:1.针对挖掘项目支持度不均匀分布的数据集很难设置合适的支持度阈值的问题,提出了基于极大团的加权可信关联规则算法MCWCAR (Maximum Clique Weighted Credible Association Rule)。通过定义加权可信关联规则和2-项加权可信集的基本概念,并利用2-项邻接矩阵来产生2-项加权可信集,得到对应的稀疏图;对于由稀疏图求出的每个连通分量,由前k-1个顶点构成所有极大团,再将第k个顶点加入(k-1)-极大团中,得到k-项加权可信集,完成极大团的加权可信关联规则挖掘过程。以解决不均匀分布的数据集难设置合适的支持度阈值的问题,并避免多次扫描数据库和频繁生成模式树,减少项集支持度的计算量。最后通过实验验证所提出的算法MCWCAR比传统算法在挖掘关联规则的时间性能和准确性具有更高的效率。2.针对目前数据挖掘中存在对长模式挖掘效率低和挖掘方式不完整等问题,提出基于动态图的Top-N极团模式挖掘算法CSDGMPA (Clique Search With Dynamic Update Of Graph Based Maximum Pattern Mining Algorithm).算法在提出2个剪枝规则的基础上,通过剪枝无效团和扩展团两个阶段精确地识别Top-N极大团,最后采用深度优先分支定界的算法寻找长度为Top-N的极大模式。所提出的算法能在基于K-项模式图构建的图中发现以团的形式出现的目标模式。随着图表动态地稀疏化,使得寻找团的过程更加高效,优化了搜索过程,提高剪枝准确性。最后,通过仿真实验,将CSDGMPA算法和传统算法MAXIA和LCM进行对比,验证了CSDGMPA算法在时间花销等方面的优越性。
其他文献
众多无线传感器网络的应用中,用户常常对某个目标区域内的感知数据感兴趣。例如,用户为了获得一片植物种植区域内的温度或湿度等相关数据。目前,相关的无线传感器网络区域查
数据挖掘是一个多学科交叉融合的前沿学科,是信息技术发展过程中的重要成果之一,其理论研究和实际应用都已被广泛关注。关联规则挖掘是数据挖掘中的一项重要任务,用于发现大量数
近几年来,随着Web服务技术的发展,服务组合已被工业界、学术界普遍认为是Web服务的重要支撑技术之一。与此同时,由于Web服务的广泛使用,其领域内也出现了规模较大的组合服务。因
近些年以来,计算机科学技术日益发展,并被应用到各行各业之中。工作流技术发展自对办公自动化领域的研究,属于计算机科学技术一类,工作流官方管理联盟对工作流的定义是:在整个工
随着社会的不断进步,工业快速的发展,使得神经网络在生活中许多领域得到了广泛的应用,不过在很多领域,神经网络的应用并不能完全发挥网络的性能,比如说,网络不能得到很好的泛化,拟合
语音传递信息是人类最常用、最重要的交换信息的方式。语音中包含了丰富的语义信息和情感信息,人们往往只注重语音中所包含的语义信息而忽略了情感信息,然而这些情感信息又是计
椭圆曲线密码系统是公认的最有前途的第三代公钥密码系统。椭圆曲线点乘计算是实现椭圆曲线密码系统的关键运算。本文针对椭圆曲线点乘计算十分耗时的问题进行分析,结合并行
在生物医学领域,三维显微图像信息的获取方式主要有激光共焦显微技术和数字共焦显微技术两种。其中,数字共焦显微技术因其信噪比高、无漂白影响、价格便宜等优点而受到广泛地
传感器网络众多关键技术中,网络节能十分重要。I.EACH协议作为第一个分簇路由协议,拥有很好的节能特性,具有很高的使用及研究价值。本文对LEACH协议成簇的过程,簇头选举的机
在道路病害检测中,由于摄像机多处于野外环境,通常摄像设备较为简陋,获取的道路图片分辨率较低。同时由于硬件成本较高,且成像系统本身的技术瓶颈,使得在很多领域高分辨率图像通常