论文部分内容阅读
近几年来,由于非均衡数据广泛存在于实际的生产与生活中,并且具有特殊性,对非均衡数据分类问题的研究越来越重要,对于这种不同类型数据的数量分布差别较大的数据,传统算法无法得到很好的分类效果。本文通过研究分析非均衡数据的特点,提出不同的重采样技术,然后结合Adaboost算法,实现对非均衡数据的分类。本文提出的均衡混合采样方法,旨在提高以决策树为基分类器的Adaboost模型对非均衡数据集的分类效果,本文的工作与研究内容如下: (1)本文提出均衡混合采样方法,对数据集采用随机森林属性选择算法,去除重要程度低的属性,提高不均衡数据的纯度以及决策树对不均衡数据集的分类能力; (2)对于多数类采样,本文采用优于简单随机欠采样的基于密度的欠采样方法,对数据集中多数类样本进行欠采样,在采样过程中,通过一定的删除策略,在保留多数类样本重要信息的基础上对样本进行删除; (3)对于少数类采样,本文首先分析现有SMOTE过采样算法的原理和步骤,发现其存在的不足和待改进的地方,然后提出改进的 KL-SMOTE(K-means-Limited-SMOTE)算法,该算法将K-Means算法和SMOTE算法进行结合,插入前对少数类进行聚类操作,从而形成多个少数类样本簇,再选取簇心位置进行插入操作;另外还要对少数类样本的分布进行判断,将其分为安全点、边界点和噪声点,人为对插入点的选择进行限制,只在安全点进行插入。该算法有效的改善了 SMOTE算法的不足,提高了插入样本的有效性,有利于提高少数类的识别效率。 最终,将过采样和欠采样的结果合并生成新的较为均衡的数据集,利用以决策树为基分类器的Adaboost集成学习模型对新数据集进行学习,构建处理不均衡数据集的模型。通过对UCI数据集进行对比试验,证明本文提出的分类算法,比现有方法在不同评测维度均具有较好的优势。 (4)本文将提出的分类算法应用在国内某网约车平台,用于识别作弊(刷券)订单。通过实验证明,本算法可以得到较高的识别效率,可在实际应用中为公司发现风险,避免损失。