高效用项集挖掘算法的研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wcqadam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘作为数据挖掘的一个重要研究领域,通过各事务项集之间的相关联系,给用户提供感兴趣的规则,在商业、科学和其它应用方面得到了广泛应用。但是,传统的关联规则挖掘基于“支持度-置信度”框架产生强关联规则,只考虑了项集的频繁度,因此用户未必对挖掘产生的规则感兴趣,而且很可能会丢失那些支持度不高、但效用值高的规则。基于效用的关联规则挖掘弥补了这一缺陷。它用效用值来衡量项集的重要性,反映了用户偏好,更好地满足决策需求。本文从提高高效用项集挖掘性能的角度出发,主要工作有:分析了目前高效用项集挖掘算法的优点和不足,设计了一种新的快速高效用挖掘算法FUI-Mine。FUI-Mine将原数据集进行分类存储,显著减少搜索时间,不需要重复扫描原数据集。同时构造一种新的数据结构FUI-Tree,按分类后的项集分别构造FUI-Tree并独立进行挖掘,只需要扫描叶子结点就可得到高效用项集,避免了递归地对FUI-Tree进行搜索。实验证明,该算法在挖掘项集最大值相对较小的数据集时,执行效率上要明显优于同类算法Two-Phase和CTU-Mine。FUI-Mine算法能快速得到数据集中的长模式效用集,但短模式效用集的挖掘成了其挖掘效率的瓶颈,因此提出一种结合FUI-Mine算法和列枚举分别挖掘长模式和短模式的混合挖掘算法Hybird-Mine。列枚举挖掘采用垂直数据格式通过事务的交集运算,直接得到短项集。同时本文给出项集的后续补集对列枚举方法进行优化,最大程度上减少了项集的相交次数和存储空间。事务权重向下闭属性剪枝策略同样适用于列枚举,提前将不满足最小效用阀值的项集剪枝,减少了搜索空间。实验证明,混合算法Hybird-Mine弥补了FUI-Mine算法的缺陷,提高了挖掘短模式的效率。当前高效用挖掘算法都是挖掘出完全的高效用项集,当最小效用阀值minutil设置较低或数据集中存在长模式,会产生大量数目的效用项集。因此,本文分析效用挖掘的现实意义,通过结合支持计数和效用的数学特性,将闭模式约束引入到高效用项集挖掘中。在不影响决策者的分析知识下,减少高效用项集挖掘所产生的项集模式数量。最后给出基于枚举的闭模式约束的项集挖掘算法CHU-Mine。实验证明CHU-Mine算法显著地减少了效用项集挖掘数量,并提高了项集产生的效率。
其他文献
医疗信息化的发展,诊断数据量的激增,需要结合数据挖掘技术进行深入分析,提取有潜在意义的知识。当前基于甲状腺功能减退症(简称甲减)的分类挖掘研究较少,只是纯粹地从医疗分
机器学习及相关算法是近年来的研究热点,随着三维表面重建技术的逐渐成熟,在越来越多的领域的广泛应用。本文使用了机器学习方法中的RBF插值和径向基神经网络分别对表面重建
本论文重点讨论用图像分析法来进行疾病诊断。我们运用于演算法中的图像处理技术则集中在三种图像的分类和细分;这三种图像分别为纹理图像,遥感图像,医学图像。这些图像处理技术
消息中间件利用高效可靠的消息传递机制进行平台无关的数据交互,是分布式系统集成的关键技术。传统的消息中间件基于特定的平台或者开发工具,始终不能以一种松耦合的方式实现
组合优化是优化领域中的一个重要分支,最小生成树问题(MST)是一类经典的组合优化问题,并且在现实生活中具有广泛的应用,例如,通信网络、电路设计、管道铺设等方面,因此对这类
智能电网是建立在集成的、高速双向通信网络的基础上,通过先进的传感和测量技术、设备技术、控制方法以及决策支持系统的应用,实现电网的可靠、安全、经济、高效、环境友好和
随着科学技术特别是无线网络技术的飞速发展,人们的通信方式也发生着日新月异的变化。当代,移动网络通信已经渗入到人们工作生活中的每一个角落,人们已经无法脱离移动网络而
随着计算机的普及以及互联网的迅猛发展,大量信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们从海量信息源中迅速找到真
动态目标跟踪技术是计算机视觉研究领域中最重要的研究课题之一,在视觉导航、军事制导、交通监测、医疗诊断等方面都有着广泛的应用。粒子滤波技术是目标跟踪领域的核心算法,
在分布式系统中,所有的资源都是服务,服务具有低耦合性、易用性、复用性和可组合的特点。传统的服务发现通常是以服务的功能性描述信息作为关键值进行服务发现,往往忽略了服