一种基于动态排序的最大频繁项集挖掘算法

来源 :重庆大学 | 被引量 : 0次 | 上传用户:cailing12530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是数据挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘尤其是关联挖掘的效率和应用范围。虽然频繁闭项集挖掘算法在一定程度上避免了频繁项集挖掘算法生成频繁项集规模过于庞大的问题,但是处理的数据集更稠密或最小支持度进一步调低的时候,这类算法的性能下降也非常快;而且稠密数据集中新颖的有价值的信息往往隐藏在长模式中,最大频繁项集是指那些在所有的频繁项集中不存在超集的频繁项集;由于最大频繁项集的个数远远小于频繁闭项集,更远远小于完全频繁项集,所以挖掘最大频繁项集可以有效缩小问题的求解规模,对用户迅速发现和理解稠密数据集中的长频繁模式具有重要的意义。最大频繁项集的挖掘仍然是一个搜索问题,剪枝优化技术是提高最大频繁项集挖掘效率的一个重要手段;论文从数据的组织结构,搜索空间,剪枝策略等角度对最大频繁项集的挖掘问题进行了深入的分析和研究,在分析现有最大频繁项集挖掘算法的基础上,发现已挖掘得到的最大频繁项集可运用于对未搜索空间进行剪枝,提出了MPDR算法,在已挖掘得到最大频繁项集中,选取一个对当前结点尾项集最具剪枝能力的作为关键模式,对尾项集实施重排序,使得当前结点的子树空间被分成两部分:潜在最大频繁项集子空间和非潜在最大频繁项集子空间;由于非潜在最大频繁项集子空间肯定不可能再出现最大频繁项集,直接被剪枝;只访问潜在最大频繁项集子空间;由此缩减对搜索空间的访问,提高最大频繁项集的挖掘效率。FP-tree结构具有特有优越性,本文算法也采用了FP-tree结构,在相同的测试数据条件下与FPMax算法和GenMax算法作测试比较,测试结果显示本文算法具有一定的优越性。
其他文献
近年来,随着国家对房地产市场的调控以及住宅市场越来越激烈的竞争,房地产行业的资本大量的涌入商业地产领域。在商业地产飞速发展的同时,也暴露出很多问题,如空置率高、同质
中共十七届三中全会通过的《中共中央关于推进农村改革发展若干重大问题的决定》(以下简称《决定》)指出应“引导高校毕业生到村任职,实施一村一名大学生计划”,以加强农村基
本文通过分析英国19世纪上半叶三位女性小说家笔下的家庭女教师形象(简·奥斯丁的简·费尔法克斯、安妮·勃朗特的艾格妮丝·格雷和夏洛蒂·勃朗特的简·爱),展现英国中产阶
本文以一诗一曲的内在关系为例 ,阐述了写作过程中一个极其普遍的规律 :模仿—借鉴—创新 ;在此规律中 ,模仿是基础 ,借鉴是一个能动的、量变的过程 ,创新是目的 ;并就如何运
本文为魏晋南北朝时期书家王僧虔书学的专题研究。王僧虔,字简穆,琅邪临沂(今山东临沂)人,南朝宋、齐间著名书法家,是王羲之的第四世族孙。他的曾祖父王洽,是晋代有名的书法
日本奈良时代的片冈山饥人传说是后世流传的诸多圣德太子传说之一,最早见于《日本书纪》的文本原型在近代以前的千余年里衍生出众多文本。本文将片冈山传说相应文本的内容置
通过分析欺骗信号对目标接收机时钟频漂的影响,建立被欺骗目标接收机在匀速圆周运动条件下的时钟频漂模型,将其与单位余弦函数进行圆相关,通过检测归一化相关值可以成功实现
针对末制导炮弹、末制导迫弹以及舰炮发射的制导炮弹,介绍了它们的发展历史及改进情况。分析了末制导炮弹的使用局限性及其优缺点,总结出末制导炮弹的发展趋势是追求精度、射
一个完整的方法论需要两个层次,其一:对于方法的认识,其二:具体的方法。本文的内容是关于建筑学理论的形成方法。所谓建筑学的理论是指建筑历史上形成的具体的理论文本,其内