论文部分内容阅读
关联分析是指根据大量数据进行关联挖掘,发现隐藏在数据项之间有价值的相关关系。传统的关联分析主要是根据事务数据库进行多次扫描来挖掘数据间的规则。在数据量达到一定的时候,存在运算量过大,效率不高的情况。本文针对传统关联分析中的效率问题,结合概率论理论及数据先验知识特征,建立一种称之为“基于随机分布的关联规则算法”的运算法则来提高关联分析中的处理效率。主要研究内容如下:(1)本文利用中心极限定理理论,根据事务数据库中的数据先验知识特征,确定相应的随机分布与之对应。依据随机分布,对每一个项目集进行赋予对应的概率值,及建立与传统事务数据库所不同的项目集数据库。(2)本文提出基于随机分布的关联规则算法,提高关联分析中的运算效率。在新算法中,主要是针对项目集数据库进行挖掘处理。项目集数据库数据容量远低于事务数据库,新算法在挖掘过程可以降低运算量和减少耗时。在多种不同数据容量的情况下对频繁集和关联规则进行挖掘。分析新算法和传统算法,得出数据容量与新算法准确性之间的相关关系。(3)考虑到实际状况中的数据更新情况,本文建立基于随机分布的关联规则增量算法。对于事务数据和阈值变化两种情况,分别提出不同的增量算法来进行解决。而通过与传统算法进行对比,也证明了新增量算法在更新情况下可以保持高准确度及大大增加效率。本文利用MATLAB软件实现基于随机分布的关联规则算法和增量算法的改进。依据算法分析及样本数据的对比,证明了基于随机分布的关联规则算法在处理关联分析问题上的可行性及优越性。