面向不平衡数据的分类算法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:gxfcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是大数据分析的核心任务之一,在顾客行为挖掘、医疗诊断、灾害预警等国计民生方面有许多典型应用,是目前的前沿热点研究方向之一。然而,在真实环境中采集到的数据如果未经过人工调节平衡,各类数据会在数量上呈现不平衡分布的形态,对分类模型有负面的影响,如银行坏账、癌症数据、灾害数据等在所收集的相关数据中占比很小。现有的特征选择和采样算法大多以最大化分类准确率为准则,有利于对大类别数据的分类,却制约了小类样本的有效识别,因此需要解决不平衡数据分类问题。目前,影响不平衡数据分类算法性能提升的关键因素包括特征选择、采样方法设计等。本文在深入挖掘和分析国内外相关文献的基础上,针对不平衡数据分类算法存在的不足和挑战,围绕数据特征选择、采样算法优化设计、关键参数优化等方面开展了相关的研究工作,以提升不平衡数据分类算法的性能。本文主要的研究工作包括:(1)针对现有不平衡数据特征选择算法效率较低、参数设定困难和容易陷入局部最优等问题,提出了基于自适应网格搜索的Laplacian特征选择算法。通过Laplacian图实现对特征的评分,设计最优特征子集搜索策略,找到最优特征子集。通过网格搜索自适应确定算法的最优参数。实验结果表明,该算法改善了传统特征选择算法效率不高,易陷入局部最优的问题,并且与文献算法相比较也体现了一定的竞争优势。(2)针对随机欠采样算法存在“欠拟合”的问题,提出一种基于距离阈值聚类的欠采样算法。在分析样本差异性的基础上,通过聚类选择簇中的边界数据以提取信息量较大的样本重建训练子集;通过距离阈值以调节并控制大类样本的数目,保留有用样本,获得相对平衡的训练子集。仿真实验和统计分析结果表明,该算法的分类正确率和MCC等指标均优于SMOTEBoost等对比算法。(3)针对基于距离阈值聚类的欠采样算法存在参数设定依赖经验值、算法效率有待提升的问题,提出一种基于随机混合采样和距离约束聚类的欠采样算法。利用混合采样方法平衡不同类别数据;基于聚类欠采样方法在平衡数据集上选择信息携带量大的边界样本;通过距离约束控制和调节各类样本数目;通过优化参数设置,进一步改善分类性能。仿真实验和统计分析结果表明,该算法提高了分类效率和精度,体现了可行性。(4)针对基于随机混合采样和距离约束聚类的欠采样算法参数设置有待优化的问题,提出了自适应近邻传播聚类的欠采样算法。设计的二次聚类策略可实现对大类样本的自适应聚类选择。第一次聚类自适应确定大类聚类簇数;第二次聚类确定边界样本。大量的仿真实验和统计检验结果表明,该算法的整体性能指标均优于对比算法,体现了算法的有效性。
其他文献
在西藏高原南部,从西到东分布着一系列近似南北走向的地堑和裂谷带,这些南北向构造与中新世的地壳伸展作用、印度岩石圈地幔的俯冲特征和冈底斯成矿带的矿床分布规律密切相关。其中,位于高原东侧的亚东-谷露裂谷带规模最大,研究亚东-谷露裂谷带及其邻区岩石圈的电性结构对理解西藏高原南部的地壳伸展作用、印度岩石圈地幔俯冲特征和冈底斯成矿带的矿床分布规律具有重要意义。使用天然场源的大地电磁测深方法能够有效反映地球内
学位
学位
学位
学位
学位
羊绒是山羊皮肤次级毛囊产生的无髓纤维,具有重要的经济价值。毛囊在胚胎期开始发生,出生前后发育成熟,之后终生历经生长期、退行期和休止期的周期性变化。次级毛囊的数量和特性直接影响山羊绒的产量和品质(细度和长度),因此研究绒山羊毛囊发生和发育的调控机制,对于提高羊绒的产量和品质具有重要的意义,是当前绒山羊育种工作的重要内容。虽然,多种参与毛囊发生发育的信号通路及相关基因在小鼠上已经被逐渐揭示,但绒山羊的
二氮稠环类衍生物具有杀菌、杀虫、抗肿瘤、抗疟多种生物活性。其母核骨架如喹唑啉环、喹唑啉酮环、氮杂吲哚环等互为生物电子等排体,在进行先导化合物优化时可以相互替换,从而达到改善原药代谢动力学性质地目的。因此,二氮稠环类化合物是一类重要的杂环分子,在化学生物学研究领域具有重要的地位。该类化合物中,喹唑啉酮和7-氮杂吲哚由于对肺炎链球菌、耐药金黄色葡萄球菌等动物病原菌有很好的抑制活性,近期受到人们广泛关注
海冰运动是指在浮冰尺度或更大空间尺度下的海冰受大气、洋流等外力驱使而产生的漂移和相互作用,由海冰运动引起的海冰输运和海冰形变是造成海冰厚度、海冰面积等发生空间重分布的主要动力学原因。依靠浮标等现场观测手段获取海冰运动信息具有较大的时空局限性,全方位、全时相观测海冰运动得益于卫星遥感技术的发展。基于卫星遥感数据反演的海冰运动产品已广泛应用于海冰变化研究与海洋(气候)模式参数化等领域,但由于数据源和反
学位