论文部分内容阅读
随着互联网技术的不断发展,人们的生活越来越信息化,同时也产生了海量的数据。如何高效、合理的从海量数据中提取有效信息成为不可避免的问题,也是数据挖掘技术面临的一大挑战。目前数据挖掘算法依靠高性能计算机以及并行计算等技术可以快速的处理大量数据,但是当固定的算法遇上千变万化的数据时往往会因数据的差异而导致结果的不稳定,进一步影响算法的性能,为解决这一问题,本文针对分类噪声数据提出完全随机森林噪声检测算法,过滤分类噪声数据从而提高分类器分类精度。为了提高分类器性能,人们总是希望通过改进分类算法达到预期效果,但是当数据本身存在大量分类噪声时,再优秀的分类器也会受到噪声数据的影响,做出错误的判断。目前关于分类噪声数据的相关研究比较少,而基于传统的数据预处理方法都是笼统地将离群点、孤立点剔除,没有对分类噪声数据给出明确定义,现有的分类器也很少考虑到分类噪声数据对其性能的影响。本文基于决策树建树过程分析了分类噪声数据的主要特征,并提出了基于完全随机森林的分类噪声数据检测算法。实验表明,本算法对大多数分类器性能有所提高,主要的分类算法包括EkNNs(Exact k-Nearest Neighbor Algorithms)、BP神经网络(BPNN,Back Propagation Neural Networks)、支持向量机(SVM,Support Vector Machine)、k-Means优先搜索树(k-means tree,K-means priority search tree)、逻辑回归(LR,Logistic Regression)、决策树(DT,Decision Tree)。基于完全随机森林的分类噪声数据检测算法包括两个步骤:第一步通过随机选取特征属性的方式建立多棵决策树,这些决策树组成一个森林;第二步遍历每棵决策树,得到分类噪声数据,数据样本是否为噪声数据取决于森林中将其判定为噪声的树的占比,即整个森林以投票方式决定。本算法重点在于单个决策树如何设置参数噪声强度阈值(NI_threshold,Noise Intensity threshold)来判定一个样本是否为噪声数据,现有的参数自适应寻优策略虽然可以达到最终目标,取得最优分类精度,但是时间开销比较大。由于传统k-means聚类算法随机选取初始中心往往使得聚类结果不稳定,本文提出了基于最大密度最远距离的中心点初始化方法,该方法综合考虑簇中心的特征——相互距离较远并且作为自身所在类的中心位置,先选出部分密度较高的样本集作为初始簇中心候选集,然后从候选集中选出相互距离最远的k(k为簇的个数)个样本作为初始中心,通过实验发现该方法可以得到比较稳定的聚类结果,并可以减少聚类过程中的中心点优化次数进而提高聚类效率。