论文部分内容阅读
数据挖掘,又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。关联分析就是从给定的数据集中发现频繁出现的项集模式知识(又称为关联规则)。可拓学是用形式化的模型研究事物拓展的可能性和开拓创新的规律与方法,并用于解决矛盾问题的科学。
Apriori算法是挖掘布尔关联规则一个很有影响的算法。它以一个频繁项集的任意子集也应该是频繁项集为原理,利用一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。Apriori算法利用支持度一信任度的基本结构进行关联规则的挖掘。尽管利用最小支持阈值和最小信任阈值可以帮助消除或减少无意义的规则,但其所获得的关联规则仍含有较多无价值的规则。因此,论文在以下3点进行了的研究:
首先,论文在分析基于置信度获取关联规则的基础上,利用统计学的理论对关联规则进行检验,通过兴趣因子对关联规则进行度量,以删除冗余规则。
然后,利用可拓学知识通过两种方法对关联规则进行分析和拓展:a对数据库中的记录和频繁项集建立物元集合,利用由物元和关系元导出的复合元,对关联规则建立复合元集合;b将所得到的关联规则建立二维物元可拓集合,利用可拓集合作为关联规则拓展的定量化工具。通过对关联规则可拓化,利用可拓变换和可拓推理,对关联规则进行拓展,获得新的信息与知识。
最后,本文在对关系数据库上的数据进行关联分析的基础上,在ibuilder2005平台上开发了关联规则数据挖掘系统,并利用可拓学对所获得的关联规则进行拓展。从定性的方面论证了规则拓展的有效性。