论文部分内容阅读
关联分析是数据挖掘算法中的一种,主要用于发现数据集中变量或项之间的关联关系,被各个行业广泛应用。其中,离散变量尤其是二元变量的关联分析算法体系较为成熟,在长久的研究中,算法效率、概念扩展等方面都取得了巨大进展。相较而言,连续属性变量的关联分析算法研究较少,而连续属性往往蕴含了大量信息。本文首先探索了基于maxR2和传统Apriori方法的非离散化处理连续型变量的关联分析算法,其基本思想是引入多元线性回归中的复样本决定系数,设计基于该指标的maxR2代替支持度。由于maxR2具有单调性性质,不同于支持度反单调性的性质,因此设计了“反向剪枝”过程。算法旨在挖掘大量连续变量中具有关联的部分变量。之后本文引入遗传算法对上述基于maxR2的maxRs-Apriori算法作了进一步改进,弥补原算法只能挖掘变量全局关联性的缺陷。改进的算法旨在挖掘变量之间的“局部相关性”,即各变量在某一区间范围内的关联度。模拟数据集上的结果表明两种算法均能够有效挖掘大量变量中具有关联关系的一篮子变量。最后,本文在UCI机器学习公开数据库鸢尾花iris数据集上对两个算法和传统算法进行比较。实验表明,本文提出的两种算法相较传统方法挖掘的变量具有更高的关联度,变量之间更易于相互解释和预测,方法在测试集上不会产生明显的退化。