论文部分内容阅读
关联规则是数据挖掘领域中的一个非常重要的研究课题,广泛应用于各个领域,既可以检验各行业内长期形成的知识模式,也能够发现隐藏的新规律。有效地发现、理解、运用关联规则是完成数据挖掘任务的重要手段,因此对大数据环境下关联规则挖掘的研究具有重要的理论价值和现实意义。Apriori算法是关联规则挖掘领域最具有影响力的算法,FP—growth算法是高效的关联规则挖掘经典算法。这两个传统算法有三个性能瓶颈:①产生的候选集过多,算法必须耗费大量的时间处理候选项集;②可能多次扫描数据库;③算法都仅考虑最小支持度和最小置信度都是固定不变的情况。支持度—置信度模型往往不能很好的评价关联规则,为挖掘出更加有效,更令用户满意的关联规则,研究者提出了多种评估量。关联规则多评估量的引入,使关联规则挖掘不再是单目标问题,而是一个多目标优化的问题。基于遗传算法的多目标关联规则挖掘算法是经典的多目标关联规则挖掘算法,但存在2个问题。①效率低下;②挖掘出的是关联规则集合,包含大量的关联规则而无法进一步处理,而且用户往往不知道哪条规则是最需要的。本文就以上的问题做了以下研究。第一,本文提出了新的二进制蝙蝠搜索(BBA)算法。首先建立了新的二进制数学模型,该模型既考虑提高标准BA的收敛性,又考虑到算法结果的多样性。然后将BBA应用于关联规则挖掘中,提出了基于BBA的关联规则挖掘算法。实验结果表明该算法的全局搜索能力和收敛性高于基于BPSO的关联规则挖掘算法,同时能够挖掘到Apriori算法挖掘不到的稀疏模式关联规则,弥补了传统算法的缺点。第二,由于置信度和支持度框架不能很好的评估关联规则的优劣,本文引入了多个评估量来评估关联规则,所以关联规则挖掘算法不再是单目标优化问题而是一个多目标优化问题。可以将置信度,支持度,提升度,兴趣度这几个度量作为算法的目标量来优化。本文提出新的多目标二进制蝙蝠算法(MBBA)。但由于多目标算法挖掘出的是Pareto解集,该解集包含了多条规则,如何从中判断哪条规则更适合于用户呢?本文探索提出了Degree of Similarity(DegSim)方法,该方法适用于多个评估量综合评估关联规则,帮助用户选择最佳关联规则。实验结果表明,基于MBBA和DegSim方法挖掘出的关联规则优于单目标BPSO和BBA算法。第三,时间序列是一种非常重要的数据类型,它既具备数据集的一般特征,又具有其自身先后序列的特殊性。如果能运用先进的数据挖掘技术分析各行业的时间序列数据中所蕴含的、有用的模式,这种探索性研究无疑在理论上和实践指导上都具有重要的意义。本文在结合时间序列关联规则的特点及实际应用的需求,在改进算法的基础上,设计实现了一个基于MBBA算法的时间序列关联规则挖掘算法原型。并且使用所实现的挖掘算法探索了新算法在钢材价格分析中的应用,以实证检验的方式进一步证明了算法的可用性,实效性及在实际应用中的优势。本文对经典关联规则挖掘算法进行了不同角度的分析,对其中存在的问题分别使用了不同的解决方法进行了研究和实现,并对目前的研究热点时间序列关联模式挖掘提出了新的解决方案。从实验结果可以看出,本文的研究内容具有一定理论意义,特别是时间序列模式挖掘在钢材价格中的应用部分有很好的实用价值。