论文部分内容阅读
关联规则挖掘作为数据挖掘的一个重要研究领域,通过各事务项集之间的相关联系,给用户提供感兴趣的规则,在商业、科学和其它应用方面得到了广泛应用。但是,传统的关联规则挖掘基于“支持度-置信度”框架产生强关联规则,只考虑了项集的频繁度,因此用户未必对挖掘产生的规则感兴趣,而且很可能会丢失那些支持度不高、但效用值高的规则。基于效用的关联规则挖掘弥补了这一缺陷。它用效用值来衡量项集的重要性,反映了用户偏好,更好地满足决策需求。本文从提高高效用项集挖掘性能的角度出发,主要工作有:分析了目前高效用项集挖掘算法的优点和不足,设计了一种新的快速高效用挖掘算法FUI-Mine。FUI-Mine将原数据集进行分类存储,显著减少搜索时间,不需要重复扫描原数据集。同时构造一种新的数据结构FUI-Tree,按分类后的项集分别构造FUI-Tree并独立进行挖掘,只需要扫描叶子结点就可得到高效用项集,避免了递归地对FUI-Tree进行搜索。实验证明,该算法在挖掘项集最大值相对较小的数据集时,执行效率上要明显优于同类算法Two-Phase和CTU-Mine。FUI-Mine算法能快速得到数据集中的长模式效用集,但短模式效用集的挖掘成了其挖掘效率的瓶颈,因此提出一种结合FUI-Mine算法和列枚举分别挖掘长模式和短模式的混合挖掘算法Hybird-Mine。列枚举挖掘采用垂直数据格式通过事务的交集运算,直接得到短项集。同时本文给出项集的后续补集对列枚举方法进行优化,最大程度上减少了项集的相交次数和存储空间。事务权重向下闭属性剪枝策略同样适用于列枚举,提前将不满足最小效用阀值的项集剪枝,减少了搜索空间。实验证明,混合算法Hybird-Mine弥补了FUI-Mine算法的缺陷,提高了挖掘短模式的效率。当前高效用挖掘算法都是挖掘出完全的高效用项集,当最小效用阀值minutil设置较低或数据集中存在长模式,会产生大量数目的效用项集。因此,本文分析效用挖掘的现实意义,通过结合支持计数和效用的数学特性,将闭模式约束引入到高效用项集挖掘中。在不影响决策者的分析知识下,减少高效用项集挖掘所产生的项集模式数量。最后给出基于枚举的闭模式约束的项集挖掘算法CHU-Mine。实验证明CHU-Mine算法显著地减少了效用项集挖掘数量,并提高了项集产生的效率。