论文部分内容阅读
数据挖掘是数据库知识发现的一个研究热点。数据挖掘一般是指从大量的数据库或数据仓库中搜索隐藏于其中的有着某种特殊关系性的规则或验证已知的规律。数据挖掘模式大致可分为回归、关联规则、时间序列、聚类和分类等模式。传统的关联规则挖掘只是针对事务数据库的一种静态的挖掘即认为规则不会随着时间而变化。但是从某些实际数据库中挖掘出来的关联规则具有时间特性,因此有必要把时间这一因素添加进来观察关联规则在时间上的变化,即动态关联规则。动态关联规则在挖掘过程中将时间进行等间隔划分,在支持度和置信度的评价体系下进行规则评价。在此基础上,引入趋势度阈值修剪对用户无价值的规则,避免生成无效的动态关联规则来提高挖掘质量,即动态关联规则趋势度挖掘。关联分类是通过引入一个带有类别标示符的训练数据集来建立关联分类器来对未知的数据对象进行预测。关联分类具有较高的分类精度和较强的适应性。但是传统的关联分类方法在算法的执行效率、剪枝的质量和效率以及分类的理解还存在有很多问题。本文在相关理论研究的基础上,将动态关联规则趋势度挖掘和关联分类方法结合起来,提出了基于关联分类的动态关联规则趋势度挖掘方法。在动态关联规则趋势度挖掘的基础上设计了基于优先规则兴趣度剪枝和兼容性特征向量的SVM分类器模型。利用动态关联规则趋势度挖掘方法生成类关联规则集,然后分别通过给定的优先规则兴趣度和兼容性特征向量进行剪枝得到最终的关联规则。算法在数据较少时发挥了关联分类的优势,对于规则的挖掘和预测有着较好的效果。通过实验数据的对比,验证了其在动态关联规则趋势度挖掘上的适用性和较高的精确度。通过数学模型分析规则的变化趋势,一定程度上解决了动态关联规则挖掘过程中如何选取支持度向量的问题。与近几年提出的动态关联规则挖掘方法相比,本文方法挖掘出的规则数目少、精确度高,有效的避免了动态关联规则挖掘的盲目性。挖掘出来的关联规则与传统关联分类方法相比有效的提高了预测精度和预测准确度。