论文部分内容阅读
随着数据库应用的不断深入,数据库的规模急剧膨胀,人们需要对这些数据进行分析,从中发现有价值的信息。数据挖掘致力于数据分析和理解、揭示数据内部蕴藏的知识。近年来,它的发展已经引起了信息产业界的极大关注,有着广阔的应用前景,并成为当今研究的热点。关联规则是数据挖掘领域中的一个非常重要的研究课题,广泛应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的规律。有效地发现、理解、运用关联规则是完成数据挖掘任务的重要手段,因此对关联规则的研究具有重要的理论价值和现实意义。本课题即对数据挖掘中的关联规则进行系统研究,主要包括以下内容:1、数据挖掘技术的分析与研究。对数据挖掘技术的产生进行了简要的回顾,在提出数据挖掘基本概念的基础上,对数据挖掘的对象、可发现的模式和经常使用的技术进行了详细的分类和总结。分析了数据挖掘技术的研究现状,对数据挖掘技术的热点研究领域进行了探讨,为本课题的全面开展奠定了基础。2、关联规则的研究与分析。在对现有的关联规则文献研究的基础上,本文对关联规则的种类进行了全面地分类和总结,详细地介绍了关联规则的基本概念和基本性质,对关联规则的典型挖掘算法及其基本思想进行了分析和研究,讨论了提高该算法效率的各种优化技术,并且客观地分析了它们的优缺点。3、在传统的关联规则挖掘算法中,广泛采用了“支持度—置信度”的评价标准。然而在很多时候,挖掘出来的关联规则其支持度和置信度都很高,却没有实际意义。针对上述问题,本文引入了关联规则的一个兴趣度的度量——相关支持度( S_R),将支持度、置信度和相关支持度一起作为有效关联规则的评价标准。4、分析经典频繁项集挖掘算法Apriori算法,针对该算法中存在的效率瓶颈问题,提出了一个改进的挖掘算法——MM_Apriori(Multiply_Matrix_Apriori),并实现了该算法。改进后的算法通过频繁1-项集生成矩阵的转置MT与矩阵M相乘来获得频繁2-项集,从而减少了Apriori算法生成频繁2-项集的时间开销。理论和实验证明,改进的算法具有良好的性能。