论文部分内容阅读
分类是数据挖掘中一个很重要的研究课题,在神经网络、统计学以及机器学习等领域得到了广泛的研究,但是大部分分类算法适用于小型数据集。强跳跃显露模式(Strong Jumping Emerging Patterns, SJEP)是近年来提出的一种新颖的知识模式,它具有很强的区分能力。针对大型数据集而提出的基于SJEP的分类算法具有较高的分类准确度。本文主要针对SJEP的挖掘及分类算法做了一系列的研究,主要工作和贡献包括以下几点:(1)针对基于SJEP-树的挖掘算法在挖掘过程中存在的冗余等问题,提出一种基于排序SJEP-树的改进SJEP挖掘算法,该算法在头表中设定标记域,过滤大量冗余的JEP;同时,在树节点中存放项名在头表中相应的序号,简化构造排序SJEP-树和后缀子树的复杂度;引入邻接表存储SJEP,减少JEP的比较次数。实验结果表明,改进后的算法的运行效率高于SJEP-树挖掘算法;(2)针对SJEP-树挖掘算法中存在的冗余问题,以及P-树挖掘算法频繁合并子树的问题,提出一种新颖的基于SP-树的SJEP挖掘算法。该算法先统计该项横向链表上不同节点的数目,然后判断是否需要进行子树合并,减少子树合并的次数,并且在合并和遍历子树的时候,动态设置子树节点中序号域的值,删除冗余的树枝。实验结果表明,SP-树挖掘算法挖掘SJEP的时间性能要优于SJEP-树挖掘算法;(3)采用分层十-折交叉验证方法来评估SJEP分类算法的分类性能。实验结果表明,对于同一数据集,在不同的最小支持度阈值下,分类准确度不同,并且若选取合适的最小支持度阈值,能够利用较少的SJEP达到较高的分类准确度。(4)分析比较SP-树挖掘算法和STSJEP-树挖掘算法的时间性能,实验结果表明,对于同一数据集,在同一最小支持度阈值下,SP-树挖掘算法挖掘出SJEP的时间性能要优于STSJEP-树挖掘算法。