论文部分内容阅读
21世纪科学技术的快速发展尤其是计算机技术更是取得了日新月异的成就,海量数据存储以及处理成为了可能。通过数据挖掘的方法来获取更多的决策信息是未来各行各业发展的趋势。在使用数据挖掘处理数据的过程,研究者经常会遇到不平衡缺失数据的问题。如在信用卡欺诈应用场景中,欺诈数据相对于正常数据较少,由于数据采集过程中,经常出现数据缺失,从而产生了不平衡缺失数据集。由于数据不平衡,缺失的特点,传统的分类算法难以有良好的效果。 本文首先对缺失数据集,不平衡数据集的特点进行了阐述,介绍了主流的处理此问题的方法。对此本文提出了相应的改进方法用以实现不平衡缺失数据的分类问题。本文的主要成果: 针对传统的缺失数据处理方法:KNN插值算法,存在多维数据集上的K近邻稀疏,K近邻距离倒数权重加权时不稳定问题,提出了基于变量聚类的距离公式来计算样本间距离,并使用指数反距离权重公式对近邻进行加权平均。得到了FC_KNN(Feature cluster KNN)算法。 针对处理数据不平衡问题时,使用欠抽样算法存在信息丢失的缺点,借助于Bootstrap的思想,提出多重抽样算法MS(Multi_Sample)。在多数类样本上进行多重抽样,然后将少数类样本与抽取的多数类样本进行融合,形成多个训练数据集,在每个训练数据集上训练Logistics_Boosting模型,并将所有的模型进行集成,生成最终模型。 本文算法在数据缺失程度,数据不平衡程度不同的多个数据集上进行试验,证明了算法的有效性。