论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,当属信息科学领域的前沿研究课题之一,有关的研究和应用极大提高了决策支持的能力,它已被公认为是数据库研究中一个极富应用前景的领域。相关领域的研究和应用已经大大提高决策支持的能力,它被认为是数据库研究领域中最具发展潜力的一个方向。 频繁模式的挖掘被公认为在很多数据挖掘工作中占据重要的地位,但是,众所周知频繁模式挖掘常常会产生数额很大的频繁项集和关联规则数目,这不仅降低了效率更影响到了效果,因为用户需要从大量的关联规则中寻找有用的规则。 当前的研究提出了一个有趣的选择:挖掘频繁闭合项集与其对应的关联规则,这同关联规则的挖掘具有同样的效果,但是会实质性的减少产生的频繁项集的数量,随后产生的规则的数量亦大大减少。 本文首先对频繁项集挖掘作了些介绍,包括它的定义、性质以及经典的挖掘算法,如apriori,FP-growth。并且在这部分给出了改善FP-growth。的新算法。然后对频繁项集的做了详尽的介绍,其中包括频繁项集的定义和性质,以及它所凭借的数学基础。对挖掘频繁闭合项集的算法closet和closet+作了一些讨论。然后在改良过的FP-growth算法的基础之上,提出了新的挖掘频繁闭合项集的算法。在文章最后对规则的生成给出了一些基本的看法、建议以及优化策略的基本思想。