基于压缩FP-tree的频繁项集快速挖掘算法研究

被引量 : 0次 | 上传用户:lonlinyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代“数据爆炸,信息贫乏”现象的出现对数据的挖掘分析提出了新的要求,数据挖掘的目的就是把隐藏在大批看似杂乱无章的数据背后的信息采集和提炼出来,总结出所研究对象隐藏的内在规律。频繁项集的提取作为关联规则挖掘中的最基本和关键的一步,近年来一直是数据挖掘的研究热点。本文针对经典的关联规则挖掘算法中候选项集产生-检验类算法和模式增长类算法存在的问题,提出了压缩频繁模式树的改进搜索算法(modified algorithm for compressed FP-tree,简称MCFP-tree)。MCFP-tree算法引入了更紧凑的压缩频繁模式树结构,结合了Apriori算法的候选项集产生机制,在该机制的基础上又提出了新的候选频繁项集检验方法,达到了提高算法挖掘效率的目的。通过在数据集上的测试,验证MCFP-tree算法可以支持数据库中较短维度频繁项集的高效搜索。对基于压缩频繁模式树的CT-PRO算法和MCFP-tree算法进行性能对比分析,提出了基于压缩FP-tree树形结构的复杂度的评价准则。树形结构复杂度的提出是考虑到相同的频繁项集挖掘算法对不同的压缩FP-tree进行挖掘时算法的性能差异很明显。按照本文对压缩FP-tree树形结构复杂度判据的定义,可以将压缩FP-tree分为简单树形结构、较复杂树形结构和复杂树形结构。在提出的复杂度判据的基础上,本文又提出了一种基于压缩FP-tree复杂度的改进搜索算法,对简单结构、较复杂结构和复杂结构的压缩FP-tree分别选用MCFP-tree算法、CT-PRO算法和挖掘子树的方法来进行频集的快速搜索。实验结果表明,通过对压缩FP-tree不同复杂度的树形结构采用有针对性的挖掘,可以显著提高频繁项集的挖掘效率。
其他文献
近几年,互联网经济在我国发展迅速,网民数量急剧增加,网购环境逐渐成熟,为互联网保险发展带来了良好机遇。尤其自2012年开始,中国的互联网保险进入全面发展时期,各保险企业通
机器视觉系统已经被广泛地应用于各个不同的领域。由于机器视觉算法的效果严重依赖于输入图像的质量,而实际得到的图像往往并不理想,因此,对图像进行复原是提高机器视觉检测
在各项存款保持快速增长的情况下,加强信贷投入是提高银行资金运用效率和经营效益的最佳选择,如何确定营销策略,有效开展中小企业信贷市场营销是我国国有商业银行面临的重要课题
近些年来,微电网受到社会各界的普遍重视,它是继分布式发电后的一种新的适合于可再生能源的发电组网形式。而作为一次能源与微电网之间电能转换的接口设备,逆变器被广泛应用
大型机械式挖掘机在目前国际国内的矿山开采及工程施工中得到了广泛的应用,大型挖掘机的性能和水平代表了一个国家的工业水平和科学技术水平。动臂是挖掘机工作装置中主要的
随着科学技术的发展,电子证据在实践中的应用越来越广,但我国相关的法律却相对滞后,没有对应的电子证据适用的规则。2013年8月新民事诉讼法颁布,电子数据作为独立的证据种类,有别
在目前经济全球化和市场国际化的背景下,积极推行现代国际管理模式是规范企业管理和提升企业竞争力的体现,但如何在欠发达国家有效落实国际管理模式是一个亟需解决的问题。尽
损害赔偿作为违约责任中适用范围最广的方式,对于合同法维护交易安全和促进交易功能的实现具有重要意义。而对于整个损害赔偿制度而言,损害赔偿范围的确定又是其关键所在。在处
目的:通过对苏州某些企业从事放射工作人员个人剂量和职业健康情况的调查,分析探讨小剂量电离辐射对放射工作人员健康状况的影响,为改善放射卫生防护条件提供科学依据。方法:对苏
随着经济全球化进程的不断深化,信息技术的迅猛发展,传统的企业经营模式日益受到严酷的挑战。为了应对瞬息万变的市场竞争,越来越多的跨国公司开始引入精益管理的理念和工具