最大多样频繁项集挖掘算法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:Tiffany100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,数据达到前所未有的规模体量。大规模的数据在给人们的日常生活、工作来了便利的同时也产生了许多问题,这主要体现在人类的数据收集、数据组织能力和数据处理能力之间存在非常大的差距,缺乏行之有效的数据分析和挖掘方法,人们无法充分利用收集到的数据,从而导致了“数据爆炸但知识贫乏”的现象。频繁模式挖掘通常是大规模数据分析的第一步,多年以来都是数据挖掘领域里非常活跃的一个研究主题。频繁项集挖掘是频繁模式挖掘中的一个重要任务,频繁项集挖掘是在给定数据集中挖掘支持度满足预定义的最小支持度阈值的项集,通过挖掘数据集中的频繁项集,能够分析数据的关联规则。传统的频繁项集挖掘方法存在一个问题是频繁项集的数量非常庞大,计算和存储这些频繁项集都是一个不小的挑战,而且挖掘如此大量的频繁项集通常是没有必要的。针对这个问题不少科研学者提出了很多基于条件约束的频繁项集,如闭频繁项集挖掘、最大频繁项集挖掘等。本论文通过对大量文献的研究整理,详细的介绍了频繁项集挖掘的背景、发展以及研究现状,分析了目前频繁项集研究领域的热点问题。论文在现有的研究基础上提出了一种最大多样频繁项集的概念,最大多样频繁项集满足最大频繁项集的要求,因此可以避免频繁项集挖掘过程中产生的大量的频繁子项集,此外,本文定义的最大多样频繁项集引入项集多样性的概念,项集多样性可以用来评价项集中各个项的类别差异大小。由于最大多样频繁项集具有的最大性约束和项集多样的两个特性,从数据集中挖掘到的最大多样频繁项集的数量通常不会特别多,但是项集中的各个项却具有非常大的类别差异,这样能够有助于挖掘到用户感兴趣的频繁项集。为了快速地从大规模数据中挖掘最大多样频繁项集,本论文提出了两种挖掘算法:基础算法和基于边界检测的最大多样频繁项集挖掘算法。基础算法是在已有的最大频繁项集挖掘算法的基础上扩展得到的,它能够挖掘数据集中的最大多样频繁项集,但是挖掘过程中需要先挖掘数据集中所有的最大频繁项集,因此算法效率较低。基于边界检测的最大多样频繁项集挖掘算法是在本论文设计的一种数据结构FP*-tree的基础上提出的。FP*-tree是对交易数据集的一种压缩存储,它能提供挖掘最大多样频繁项集所需要的信息。基于边界检测的最大多样频繁项集挖掘算法在使用FP*-tree挖掘最大多样频繁项集时,会计算包含每一个项的频繁项集多样性上界,优先挖掘多样性较大的最大频繁项集,在挖掘过程中算法会计算挖掘到的最大频繁项集的多样性并检测数据集中潜在的最大频繁项集的多样性上界,通过检测潜在的频繁项集多样性上界算法能够感知挖掘到的最大多样频繁项集是否满足挖掘需求。当确认已经挖掘到所需的最大多样频繁项集时,算法就可以结束并返回结果。为了评估本论文提出的最大多样频繁项集挖掘算法的效率,本论文设计了多组对比实验,分别测试了在不同条件下基础算法和基于边界检测的最大多样频繁项集挖掘算法在挖掘最大频繁项集时的性能表现,实验结果表明本论文提出基于边界检测的最大多样频繁项集挖掘算法在挖掘最大多样频繁项集时具有显著的优势。
其他文献
机械零部件的摩擦磨损不仅会导致机械系统燃油效率降低,产生废气污染,而且还会导致零部件摩擦损耗增大。一般可以通过在机械零部件上沉积耐磨涂层及使用特定功能的润滑油添加
随着经济不断发展,国家对环境的保护政策逐年提高,国内大多数火电厂烟气脱硝装置存在喷氨不合理,SCR反应器出口NOx分布不均匀,局部氨逃逸大的现象,因此对脱硝系统进行喷氨优
闭孔的多孔金属材料是一种新型的功能材料,以其良好的吸能性能、隔声性能及吸声性能受到人们广泛的关注。激光增材制造技术制备多孔铝合金不仅能够解决其难以形成冶金连接的
脊柱能够提升脊椎动物运动的灵活性、稳定性和协调性。目前四足机器人主要采用刚性躯干,在灵活性、稳定性和协调性方面存在不足。而基于仿生学原理的柔性脊柱是四足机器人中
SZ36-1油田位于渤海辽东湾海域,是1987年在渤海海域发现的第一个石油储量过亿吨的大油田,该油田属于稠油油田而且是海上开发的最大自营油田。鉴于此大型稠油海上油田的开发在
Ni-Mn-Sn系铁磁形状记忆合金的相变与磁性能具有强烈的成分依赖特性,可通过合金化的方法进行调控。本文以Ni50Mn39Sn11合金为基础,分别以Fe、Cu、Co替代Ni,采用真空电弧熔炼
在五金卫浴、汽车零部件等行业中,异构件因其面形不规律,在磨削抛光加工中具有磨抛效率低、加工精度差、自动化磨抛效果较差的特点。为了更好地提高异构件工件的自动化磨抛效
无底柱分段崩落法具有生产安全高效的优点,广泛应用于国内外地下铁矿山。矿岩块度分布对出矿效率和后续工序有重要影响,合理的分布有利于矿体的装运、破碎等,能够提高生产效
随着高校办学的规模不断扩大,日常办公数据信息量日益增多,各大高校越来越重视信息化建设工作。在“智慧校园”、“数字化校园”等新理念的影响下,高校云储备管理系统应用而
材料的耐蚀性直接关系到材料制品的使役安全性和使用寿命。铝合金具有质量轻、强度高、成形加工性优等性能优势,被广泛应用于各行各业。然而,焊接性、耐蚀性及装饰性差等主要