基于损失函数加权分析的不平衡分布数据分类算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:sfol001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界的数据较多地呈现不平衡分布,使用传统分类算法训练不平衡分布数据时会出现少数类识别较差的问题。本文通过对不平衡分布数据分类的特点与难点进行分析,提出一种新型的采样方法、一个加权分析框架以及一种新型的代价敏感损失函数。本文具体工作如下:1)提出一种基于自适应采样的不平衡分布数据分类方法(Adaptive Sampling Imbalanced data Classification,ASIC)。针对传统重采样方法大多使用固定采样策略的问题,该方法根据分类模型在验证集上的表现动态调整训练集上不同类别样本的采样概率,使不同类别样本的采样概率由当前分类模型的需求动态决定。对于当前识别能力较弱的类别,其采样概率较大,相应地拥有更多的训练机会。同时,该方法对少数类别给予额外的关注,在其余条件相同的情况下为少数类赋予更大的采样概率,以缓解少数类本身类内多样性不足对分类模型的影响,从而提高分类模型对少数类的识别能力。此外,由于该方法使用类别在验证集上的分类召回率指导训练集上样本的采样,因此对少数类进行上采样时可有效缓解过拟合问题,从而提高分类模型对少数类的泛化性能。2)提出一种加权分析框架。使用该分析框架,可对不同的代价敏感损失函数的加权策略进行分析。并且,在该分析框架下可以自由地为分类器权重向量以及样本特征设计不同的权重。3)提出一种新型的代价敏感损失函数(Composite Weighting Loss,CWL)。该损失函数同时融合改进后的LDAM Loss以及Focal Loss,既可为不同类别施加不同的间距约束,又可加大分类模型对困难样本的关注度。同时,在损失函数的优化中引入课程学习策略,使分类模型在训练前期较好地学习简单样本,并随着训练的进行更多地关注困难样本的学习,使学习的过程更加平滑,从而提高泛化能力。4)将所提的ASIC采样方法以及CWL损失与常用的不平衡分布数据分类算法在不同不平衡分布数据集上进行实验对比分析。由于ASIC根据分类模型的表现动态调整采样策略,所以使用ASIC采样方法训练的分类模型在平均类准确率以及geometric mean上均比其他方法更好,且数据分布越不平衡,ASIC采样方法的优越性越明显。另外,由于CWL代价敏感损失使用课程学习策略调整对困难样本的关注度,所以相比于其他代价敏感损失函数,使用CWL训练的分类模型对不平衡分布数据的识别能力普遍更好。
其他文献
随着时间的推移,中国的老旧小区在数量上逐渐递增,而其内部的建筑质量与环境状况呈现逐年下降与变差的趋势。随着城市化进展加快,为了推动城市转向更加高质量发展,老旧小区的改造便成为了一个基本问题。习近平总书记在视察广州时明确指出广州的城市建设不能急功近利,要多采用微改造这种“绣花功夫”来实现人居环境的改善。早期建成的老旧小区均较少考虑儿童活动空间,其儿童友好度偏低。随着广州儿童数量的逐年攀升,老旧小区儿
应用无线电能传输技术为植入式医疗设备供电具有安全、灵活、可靠的优点。当发射线圈与接收线圈相对位置、设备工作状态或植入式锂电池荷电状态发生变化时,植入式无线电能传输系统的输出电压或电流会产生波动,影响植入式医疗设备的恒压供电或锂电池的恒流充电。同时由于植入人体内的部件体积受到限制,植入式无线电能传输系统的拓扑设计面临挑战。为此,本文将从谐振补偿网络出发,研究具有恒压或恒流功能的植入式无线电能传输系统
近年来免疫疗法在抗肿瘤治疗方面取得了较大进展。在众多免疫细胞中,自然杀伤细胞(Natural killer cells,NK cells)在抗肿瘤治疗过程中是不可或缺的。相比于T细胞和B细胞,利用NK细胞治疗肿瘤具有无需抗原呈递、能广谱性杀伤肿瘤细胞的优势,因此基于NK细胞制备抗肿瘤药物具有一定的临床转化前景。提高NK细胞在肿瘤部位的浸润有利于增强肿瘤的治疗效果,目前已有的促进NK细胞在肿瘤部位富
结构方程模型作为一种基于统计分析技术的研究方法,可以同时处理多变量之间的复杂关系,已经被广泛应用于社会科学领域。结构方程模型应用过程中,使用者需要手动进行模型界定并使用专业软件进行参数估计与拟合计算,该流程复杂低效且要求使用者具有专业知识背景。该领域的专业软件目前仅有国外企业研发的AMOS、LISREL、MPLUS等,但存在版权受限问题。因此,自动生成结构方程模型具有显著的研究意义和应用价值。结构
论文以屋顶农场为研究对象,通过梳理屋顶农场的概念和发展背景,对屋顶农场的相关基础、国外优秀案例和在我国城市屋顶绿化中的实践案例进行研究,梳理其在设计、管理和推广应用等方面可能存在的问题,进而提出相应的策略,旨在为将来屋顶农场的设计和应用提供参考建议。论文主要内容分为三部分:(一)发展背景及研究对象解析:阐述屋顶农场的概念,梳理屋顶农场的发展历程,并对屋顶农场的类型、新特点和运作模式做了总结,论证了
随着社会的不断发展和人们的消费观念不断加强。人们对产品的要求也不仅仅局限于产品的基本功能,而是追求更加人性化、安全、舒适的使用体验。集成灶作为21世纪初的新兴厨电产品,本身就具有一定的产品优势。当前对集成灶产品的设计更多的是从工程技术层面或产品功能的角度出发进行考虑,而对用户体验的研究相对匮乏。本文的研究目的是将用户体验设计理论应用于集成灶的产品设计中,探索出适用于集成灶产品的用户体验设计原则,并
电力电缆作为电力传输的重要设备,在电力系统中备受人们的关注。随着经济不断发展及人们对用电需求量的增加,城市输电走廊空间变得日益狭窄。除此之外,近年来逐年上升的线路损耗,同样对电网建设提出了更严峻的挑战。超导电缆与XLPE电力电缆及架空线路相比,其优点是线损率低、可实现大容量电力传输的同时其占地空间小、无磁污染及环境友好等突出优点,冷绝缘高温超导电缆绝缘材料处于液氮环境中能够发挥更好性能,但对材料耐
岭南道观园林是岭南地区存续已久的特色文化空间,是岭南民众重要的祭祀场所和生活环境。岭南道观园林遗产丰富,在岭南地区乃至东南亚地区具有广泛的影响力。开展岭南道观园林的审美文化研究,对于加强岭南道观园林遗产保护与发展具有重大意义。广州纯阳观历史悠久、自然景观独特、人文底蕴深厚,具有浓厚的岭南地域特色,是岭南地区城市道观园林的典型代表,在不断的发展演变中积淀着自己独特的审美文化内涵。基于国家自然科学基金
卤化铅钙钛矿量子点(QDs,CsPbX3其中X=Cl,Br,I)因其量子产率高、发光峰窄以及发光波长可调等优点而备受关注。然而,钙钛矿QDs稳定性较差的缺点限制了其在显示照明领域的实际应用。其中,钙钛矿QDs表面配体在光、热、潮湿条件下容易解离或发生化学反应是其耐候性差的重要原因之一。针对此问题,本论文拟以含芳香杂环的离子性配体对钙钛矿QDs进行修饰,研究此类配体对钙钛矿晶体生长习性以及发光性质的
在现代素质教育普及的过程中,学校面临着土地资源紧张、升学率增加的压力[1],导致校园教学建筑的设计更多地关注空间使用功能,忽略了从使用者角度思考中学生的健康需求。哈佛大学陈增熙公共卫生健康项目小组在报告中指出:“健康校园是学生成功的基础”,教学建筑作为学校各种教学活动的载体,对培养学生良好习惯、塑造健全人格、提高适应能力尤为重要。中学生正处于人生发展的特殊阶段,其敏感性和脆弱性对所处环境有着独特的