论文部分内容阅读
数据挖掘是数据库、人工智能、机器学习等领域结合而产生的是一个新兴的、具有广泛应用前景的研究领域,其目标是从海量数据中智能、自动地提取有价值的信息和知识以支持决策。关联规则挖掘是数据挖掘的重要研究内容。对关联规则挖掘问题的研究是由Agrawal等人在1993年提出来,最初的动机是希望通过分析超级市场的商品销售数据来发现有关顾客购买行为的知识以指导商业决策。在超级市场的事务数据库中,保存着顾客每次购物的商品项目信息,发现顾客购物行为中不同商品项目之间的影响和联系对于商业决策意义重大。对关联规则挖掘问题的研究可以帮助我们正确的发现这些联系。 关联规则挖掘问题的提出引起了众多研究人员的重视,他们对该问题展开了深入的研究;同时,关联规则挖掘问题也被进一步扩展和改进,应用到更广泛的领域。目前,关联规则挖掘技术已经被应用到除商业领域外的其它领域,如电讯业、金融业等,均取得了良好的效果。 关联规则挖掘问题最初仅涉及事务数据库,由于事务数据库中不存在属性值丢失的问题,值丢失问题在关联规则挖掘的研究中也一直没被重视。然而,当我们尝试去发现关系数据库中的关联规则时,就可能经常要面对属性值丢失的问题。怎样从不完整的关系数据库中计算关联规则至今仍没有明确的方法。 文中详细介绍并比较了AIS算法、SETM算法、Apriori算法、DIC算法等典型的布尔关联规则挖掘算法,研究了其各自的效率和适用范围;详细介绍了数值关联规则挖掘的一般思路和关键技术,包括连续属性离散化、数值关联规则的兴趣度和挖掘过程中候选项目集支持率的计算方法;基于粗糙集理论中的等价类思想,本文提出了一种在关系数据库中进行关联规则挖掘的新方法,重新定义了关系数据库中的关联规则,及其支持率和置信度等概念,给出了通过搜索项目集的等价类来发现频繁项目集的新思路;深入研究了不完整关系数据库的重要性质,并在此基础上介绍了不完整关系数据库中的关联规则,以及它的支持率和置信Iz辇霎弓爿 茄半壹a井寸Y“-/M托工ER S 工肛SIS 度的评估方法,并定义了它的期望支持率和期望置信度,这些定 义保证了关联规则挖掘的某些必需的性质;研究了以往的丢失值 处理方法并分析了其不足之处,最后结合前面的定义给出了不完 整关系数据库中关联规则挖掘问题的新的定义和解决方法。/