基于多重最小支持度的高效用频繁项集挖掘算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:shashasimon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集挖掘是数据挖掘领域的重要研究方向之一,但是传统的频繁项集挖掘算法只考虑项集的支持度,这使得在挖掘过程中丢失一些用户感兴趣的项集。此外,由于数据流具有实时性、无限性和连续性的特性,这就要求在数据流环境中的频繁项集挖掘算法具有较高的时间和空间效率。  本文对多重最小支持度和高效用项集挖掘算法问题进行描述,在数据结构和处理方法上,对目前已有的频繁项集和高效用项集挖掘算法的优缺点进行分析和总结,在此基础上做了以下研究工作:  (1)在静态数据集中,针对现有的多重最小支持度挖掘算法会产生大量的中间候选集,增加了时间和内存的开销,且没有考虑项集的效用值等问题。本文利用多重最小支持度和效用值,构造了数据结构MHU-Tree,并提出用于修剪构造过程中全局MHU-Tree的PG策略和用于修剪挖掘过程中局部MHU-Tree的PL策略。在此基础上,提出了基于多重最小支持度的高效用频繁项集挖掘算法MHU-Growth,较大地减少中间候选项集的数量,快速地挖掘高效用频繁项集。通过与经典算法CFP-Growth++进行对比,验证了MHU-Growth算法在运行时间、候选项集产生的数量以及内存开销等性能上优于CFP-Growth++算法。  (2)在数据流环境中,现有的高效用项集挖掘算法需要多次扫描数据库,而对用户来说,效用阈值难设置,过高或过低都会影响挖掘效果。针对这些问题,本文结合多重最小支持度和效用值,构造适用于数据流挖掘的数据结构TKHUF-Tree和构建存储效用信息的矩阵PMD和RMD,并提出PEU、RTS等阂值调整策略来自动调整效用阈值的大小,减少中间候选项集的产生数量以及数据库扫描次数。  (3)在TKHUF-Tree的基础上,提出了top-k高效用频繁项集数据流挖掘算法TKHFDS,它利用滑动窗口模型来处理数据流数据,并提出minTKUtil策略来调整下一个窗口的效用阈值,快速、有效地挖掘出高效用频繁项集。最后,将算法TKHFDS与传统算法TKU及T-HUDS进行对比,实验验证了TKHFDS算法在时间和内存开销等性能上的有效性。
其他文献
随着无线移动用户的迅速增多,互联网正在向支持大范围移动性方向发展,越来越多的人希望能够通过移动方式进入互联网享受网络服务。移动IPv6协议的提出使得移动节点在接入新的子
售后服务水平的高低已经成为汽车市场中企业竞争成败的关键因素之一。近年来,我国汽车行业售后服务水平得到了很大的提高,但许多汽车制造企业的售后服务体系仍存在着业务处理方
三维几何模型简化是计算机图形学领域始终备受关注的研究方向,也是未来相当长时间内的热点方向。随着获取和建模技术的迅速发展,得到高精度、大数据量的三维几何模型变得越来
随着P2P技术的发展,越来越多的研究人员从事到P2P协议的开发中来,新的P2P协议和算法在投入使用以前,需要使用P2P模拟器对其正确性及性能进行验证和评价。本文在研究了现有P2P
继电保护装置是电力系统最重要的二次设备之一,继电保护测试系统担负着对继电保护装置工作性能进行测试的重要任务,在电力系统的正常运行过程中是必不可少的。传统的继电保护测试软件大多采用面向对象的系统结构,虽然已能基本实现,但软件在稳定性和可扩展性上还存在许多不足:软件对于编程语言的依赖性很强;应用程序结构缺乏灵活性;软件对应用环境的适用性差,代码在不同应用环境间很难共享。鉴于继电保护测试软件开发过程中的
随着网络技术的普及发展和教育改革的不断推进,智能化组建试卷的研究越来越受到专家学者的重视。组建试卷的研究是一个多目标多约束的组合优化问题,其关键部分是确定组建试卷
逻辑程序设计语言提供了一种说明性的编程方法,与基于算法的过程性程序设计语言如Pascal、Ada和C等相比,逻辑程序设计语言具有诸多优点。首先,逻辑程序丰富的表达能力和不确
网络的应用形式由传统业务向P2P、Web2.0等形式转移,急需高效的流量监控系统对网络的各类业务进行及时、准确的分析和控制。本论文以“基于IPv6的P2P弹性重叠网络智能节点的研
随着计算机技术的广泛应用,各领域对软件的需求不断增长,软件的复杂程度也不断提高,软件危机日益严重,如何更好的在缩短软件开发周期的同时提高软件质量就成为软件产业的当务之急
随着无线射频识别RFID (Radio Frequency Identification)技术的不断发展,RFID在各商业领域得到了广泛的应用,对RFID传感器产生的海量原始数据进行实时有效的处理变得越来越