论文部分内容阅读
分类是大数据分析的核心任务之一,在顾客行为挖掘、医疗诊断、灾害预警等国计民生方面有许多典型应用,是目前的前沿热点研究方向之一。然而,在真实环境中采集到的数据如果未经过人工调节平衡,各类数据会在数量上呈现不平衡分布的形态,对分类模型有负面的影响,如银行坏账、癌症数据、灾害数据等在所收集的相关数据中占比很小。现有的特征选择和采样算法大多以最大化分类准确率为准则,有利于对大类别数据的分类,却制约了小类样本的有效识别,因此需要解决不平衡数据分类问题。目前,影响不平衡数据分类算法性能提升的关键因素包括特征选择、采样方法设计等。本文在深入挖掘和分析国内外相关文献的基础上,针对不平衡数据分类算法存在的不足和挑战,围绕数据特征选择、采样算法优化设计、关键参数优化等方面开展了相关的研究工作,以提升不平衡数据分类算法的性能。本文主要的研究工作包括:(1)针对现有不平衡数据特征选择算法效率较低、参数设定困难和容易陷入局部最优等问题,提出了基于自适应网格搜索的Laplacian特征选择算法。通过Laplacian图实现对特征的评分,设计最优特征子集搜索策略,找到最优特征子集。通过网格搜索自适应确定算法的最优参数。实验结果表明,该算法改善了传统特征选择算法效率不高,易陷入局部最优的问题,并且与文献算法相比较也体现了一定的竞争优势。(2)针对随机欠采样算法存在“欠拟合”的问题,提出一种基于距离阈值聚类的欠采样算法。在分析样本差异性的基础上,通过聚类选择簇中的边界数据以提取信息量较大的样本重建训练子集;通过距离阈值以调节并控制大类样本的数目,保留有用样本,获得相对平衡的训练子集。仿真实验和统计分析结果表明,该算法的分类正确率和MCC等指标均优于SMOTEBoost等对比算法。(3)针对基于距离阈值聚类的欠采样算法存在参数设定依赖经验值、算法效率有待提升的问题,提出一种基于随机混合采样和距离约束聚类的欠采样算法。利用混合采样方法平衡不同类别数据;基于聚类欠采样方法在平衡数据集上选择信息携带量大的边界样本;通过距离约束控制和调节各类样本数目;通过优化参数设置,进一步改善分类性能。仿真实验和统计分析结果表明,该算法提高了分类效率和精度,体现了可行性。(4)针对基于随机混合采样和距离约束聚类的欠采样算法参数设置有待优化的问题,提出了自适应近邻传播聚类的欠采样算法。设计的二次聚类策略可实现对大类样本的自适应聚类选择。第一次聚类自适应确定大类聚类簇数;第二次聚类确定边界样本。大量的仿真实验和统计检验结果表明,该算法的整体性能指标均优于对比算法,体现了算法的有效性。