论文部分内容阅读
数据挖掘旨在发现数据中隐含知识或发现数据的未知模式,从数据集中找出异常点也是数据挖掘领域中的重要任务。异常点检测作为数据挖掘的一种重要方法,在实际应用中发挥着重要作用,广泛运用于金融反欺诈、设备故障检测、网络入侵、和医疗影像分析中。异常点检测挖掘方法对提高工业生产效率、服务社会生活具有重要意义。现阶段基于集成模型的异常点检测是一个热点研究课题,而随机森林方法具有优良的分类决策性能。本文以识别出异常点为目标,对随机森林模型进行改进,提出基于随机森林模型的异常点检测算法,具体工作包括以下3个方面:1、提出一种基于模糊树节点的随机森林进行异常点检测。首先在构建随机森林的分类决策树过程中,把模糊方法引入到二叉决策树的节点中,在节点中设计关于类别划分的模糊区域,在模糊区域上设计正常与异常隶属度函数。当某样本经过决策树节点中的模糊区域时,进行样本的正常与异常隶属度计算;若该样本的异常隶属度大于正常隶属度,则该样本被判别为异常类;否则,该样本进入决策树的下层树节点,若无下层节点则被判别为正常类。该样本的最终类别由随机森林算法中的投票步骤决定。实验表明,该算法具有较好的异常点检测性能。2、提出一种基于双特征松弛边界的随机森林进行异常点检测。首先,在只使用正常类数据构建随机森林的分类决策树过程中,在二叉决策树的每个节点里依据训练数据集确定两个特征的取值范围(称之为特征值域)及值域的松弛边界,以此双特征值域作为异常点判断的依据;然后进行异常检测工作,当某样本通过决策树节点中的双特征值域时,若没有落入该值域,则该样本被标记为候选异常类;否则,该样本进入决策树的下层树节点继续做特征值域的比较,若无下层节点则被标记为候选正常类;最后,由随机森林算法中的判别机制决定该样本的类别。实验表明,本算法具有较高的异常点检测性能,且算法稳定。3、提出一种部分样本回溯的随机森林方法进行异常点检测。针对每棵决策树是由部分数据训练得到的,其树节点中的双特征值域没有反映超出此值域范围的样本信息(称遗漏信息),故在决策树训练完成时,对每棵决策树使用相应的袋外数据进行叶子节点至根节点的回溯操作,其目的是对树节点中的双特征值域进行修正,补上遗漏信息。该方法是在传统决策树训练完成后加入样本回溯,使得全样本都参与了树的构建,即这样的决策树全面学习了样本信息,反映出数据的完整值域信息。在进行异常检测时,当某样本不满足决策树节点中的双特征值域时,该样本被标记为候选异常点。该方法有效减少了样本被误判的可能性,且取得了优异的检测效果。实验表明,本文提出的部分样本回溯的随机森林算法具有较高的异常点检测性能,且算法稳定。异常点的特点是其关键特征取值与正常样本有显著区别,这也是异常点孤立于正常样本的根本原因,本文将这一特性与决策树这种层次模型相结合,提出基于模糊树节点的随机森林、基于双特征松弛边界的随机森林和基于部分样本回溯的随机森林进行异常点检测,这些模型在决策树的分类过程中即可进行异常点检测,算法简单高效且稳定。