面向非平衡数据的AdaBoost改进算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:fairycx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘领域中一个重要的分支,普通的分类模型通常假设数据集中各类别的样本数量差距很小且对于每个类别的误分代价相等,而使用不平衡数据集训练传统的分类器会导致模型对于少数类的预测精度很低,因此不平衡数据的分类问题一直是机器学习领域的研究热点。本文针对面向不平衡数据的分类方法开展研究,引入了基于样本权值的欠采样方法,样本局部密度计算方法以及样本误分代价计算方法,提出了三种面向不平衡数据的AdaBoost改进算法。本文的主要工作如下:(1)提出了一种基于欠采样和代价敏感的不平衡数据分类算法USCBoost(Undersampling and Cost-sensitive Boosting),算法旨在对多数类样本进行欠采样,并将代价矩阵引入到权重更新公式中,使得错分少数类的样本权重增加更快。实验结果表明USCBoost算法与其他对比算法相比,在F1-measure值和G-mean值上有了显著提高,该算法处理不平衡数据分类具有一定可行性。(2)提出了一种基于样本密度的AdaBoost算法,算法首先使用样本K近邻计算每个样本局部密度,并将两类样本局部密度分别归一化,赋予每个样本权重,然后将其作为AdaBoost算法中的初始值。同时对本文提出的算法进行实验验证,算法对于少数类样本有着更好的识别能力。(3)提出了一种基于孤立森林的AdaCost算法,算法使用孤立森林得到每个样本的异常分数,再根据异常分数计算每个样本的误分代价,算法通过分别计算两类样本的误分代价再进行归一化,使每类样本的误分代价之和都为1,有效的区分了类内样本和类间样本,降低了噪声数据的影响。(4)设计并实现了基于集成学习的不平衡数据分类系统,系统集成了多个面向不平衡数据的集成分类算法和基分类器算法,包括数据集描述,参数设置,分类算法选择,运行结果模块,方便了用户在对于不平衡数据建模时选择更加合适的分类算法以及提高了对于分类算法调参的效率。
其他文献
近年来,在机器学习等领域中,针对图像数据的分类识别已经成为广大研究者的重点关注问题。传统的算法大都基于欧氏空间计算样本相似性,虽然简单有效,但是由于没有考虑图像数据的高维、稀疏和流形等特性,无法准确地度量样本点之间的相似性。越来越来多的研究者基于黎曼流形的度量学习方法展开了大量的研究工作。流形假设是指人类所看到的数据为嵌入在高维空间中的低维流形。相对于传统算法而言,黎曼流形度量学习可以很好的利用样
近年来,随着人工智能的快速发展,智能解答类问题越来越受人瞩目,其中机器阅读理解成为该领域的重要研究分支。针对高考语文阅读理解任务,本文工作研究科技文中选择题的自动解答。该类型题目一般包含1篇背景材料、1个题干和4个候选选项,要求机器根据题干,基于对背景材料中相关内容的理解,从4个候选选项中选出一个正确选项。本文提出了一个基于关键词语义扩充的选择题解题模型,通过基于外部知识库的关键词语义扩充,丰富材
计算机断层成像(Computed Tomography,CT)作为辅助医生诊断的一项技术被广泛应用于医疗实践中,但是在其扫描过程中过高剂量的辐射会对患者的身体造成严重的伤害,增加患癌的风险。低剂量CT可以通过降低辐射剂量或者减少投影个数来实现。然而,每个角度下低剂量辐射所获取的投影噪声较大,致使重建出来的图像包含较大噪声,影响后续诊断。高精度低剂量CT重建的一种有效途径是除去低质量图像中存在的噪声
特征选择方法是指从数据的初始特征集中,根据一定的方法选择出符合某种标准的特征子集的方法。作为一种常见的数据预处理方法,特征选择是数据降维中一种重要的手段,在机器学习中数据降维处理发挥着重要的作用,其可以有效过滤数据中噪声,提升后续机器学习的效率。对于空间数据而言,传统的特征选择方法没有考虑到空间数据点之间的空间位置关系。通常空间数据都有着特定的空间分布特征,空间自相关性和空间异质性导致空间对象存在
不平衡数据广泛存在于医疗、经济等领域。随着社会的发展和进步,特别是进入大数据时代,越来越多的数据是高维且不平衡的,这对机器学习和数据挖掘而言是巨大的挑战。分类是计算机领域的研究热点,在处理这些高维不平衡数据时,决策树、随机森林、支持向量机等传统分类算法的分类准确率不能很好地满足人们的需求。本文以不平衡数据集为研究对象,运用不同的特征选择算法进行分析,并在此基础上进行分类,旨在兼顾少数类和整体的准确
在当今全球信息化的大背景下,信息安全问题愈来愈成为一个全球性问题,信息的安全性和保密性在信息化时代越来越引起人们的高度重视。传统的身份验证很容易导致个人信息的丢失,且易被盗取。相比于现应用的生物特征,指静脉在手指皮肤之下,不易被盗取,且指静脉因具有活体性等优势成为生物识别技术的重要研究方向。深度学习由于具有强大的特征表达能力被逐渐应用于生物特征识别领域,因此基于深度学习的指静脉识别成为当下最具研究
在医学实践和临床医疗中,无论是临床医学诊断还是病理研究,都需要通过各种成像技术来获得生物体的器官、组织乃至细胞和亚细胞结构的形态学和功能学信息。光声成像作为一种新兴的成像技术结合了纯光学成像的高选择特性和纯超声成像的高穿透特性,具有高对比度、高分辨率和深成像深度的特点。光声成像的成像深度和成像分辨率与所采用的光声传感器密切相关。传统的超声波探测器是使用压电材料制成的,它的局限性是对电磁干扰的敏感性
目的探讨脑卒中患者专科康复后离院时日常生活活动能力(ADL)情况及其相关影响因素。方法以2019年6月至2020年12月海安市某医院康复科收治的脑卒中患者为研究对象,于患者专科康复后离院时对ADL状况进行评估,并采用单、多因素方法对ADL影响因素进行分析。结果 523例脑卒中患者专科康复后的ADL评分为(62.23±18.27)分,其中ADL评分(<60分)较差的脑卒中患者比例为28.49%。多因
阿尔茨海默病(Alzheimer’s disease,AD)是老年人群体中最常见的痴呆类型.因它在发病初期症状极不明显,一经确诊便达到错过最佳干预期的中后期,会严重威胁到受害人及其家属的身心健康,给他们的生活带来了巨大的负担.由于它的病因涉及多个方面,所以到目前为止没有绝对的治疗办法.因此,要对老年人进行初期筛查.为了解决社区大样本条件下AD筛查医护人员不足时对结构能力测评存在的困难,本文从临床上
中国是世界上老龄化较严重的国家之一,脑小血管病是临床常见的在老年人群中易发的脑部血管病,其临床表现多样,可表现为认知功能下降、痴呆、步态异常、情感障碍等.如不对其干预,任其发展下去,极易引发语言功能、认知功能等多种脑功能障碍,导致患者精神恍惚及生活自理能力下降,不仅使患者感到痛苦,对社会对家庭都是一种负担.脑小血管病初期通常症状不明显,容易被患者及其家属忽略而错过早期识别、及时治疗的最佳时期.脑小