论文部分内容阅读
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘提取的知识可以表示为概念、规律、模式、约束、可视化。数据挖掘的任务是从数据中发现模式。通过对模式的分析及处理,可以得到人们感兴趣的知识。
关联规则的挖掘是数据挖掘中的一个重要部分,通过挖掘关联规则可以获得数据间隐藏的联系,这种联系往往是人们感兴趣的。现有的关联规则挖掘基本上分为两步:首先找出大于支持度阈值的项集,然后根据项集产生强关联规则。分析现有的关联规则挖掘算法中所存在的问题:首先是关联规则在其表达形式上没有考虑各种可能的反面示例的影响,因而导致知识表达功能的不够完善;其次是有可能一条规则即使可信度和支持度都很高,仍没有实际意义,甚至是误导性的。因此,人们又引进了兴趣度做为第三个阈值,并对兴趣度的定义和使用进行了广泛、深入的研究。
本文在介绍了数据挖掘和关联规则的概念及其相关知识,详细介绍了关联规则挖掘的经典算法Apriori算法的基础上,首先给出了基于个体的个性化形式表示方法,利用个性化形式表示方法可以对个体进行形式化表示,本文将该个体表示与信息论中的信息表示联系起来,使关联规则的支持度具有了基于个体的个性特点,这样利用该表示方法对个体进行关联规则挖掘,就会使所得到的规则更具有个体的个性化特点,更具有实际价值;其次,本文给出了基于信息差异的兴趣度,该兴趣度的定义考虑了事件及其对立事件产生的信息量差异,并利用信息化表示将规则的信息量差异表示出来,利用这种信息的差异量确定了兴趣度,并使用该兴趣度作为关联规则的阈值之一,其中,该兴趣度考虑到挖掘环境的影响,还分成了无条件和有条件两种情况,本文分别给出了无条件的基于信息差异的兴趣度和有条件的基于信息差异的兴趣度两种情况的兴趣度定义,并且给出了不同的性质和定理,使得该兴趣度使用起来更加灵活,应用范围更加广泛;最后,本文利用基于信息差异的兴趣度给出了一种关联规则挖掘算法,并对该算法进行了验证,效果良好。