面向非平衡数据分类的支持向量机改进算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:qf125228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实世界的分类问题中,关于研究对象的数据往往是类不平衡的,即不同类别的样本数目有很大差异,在不平衡数据集中,某些类别在数量处于劣势(简称“小类”),甚至被其他类别(简称“大类”)“淹没”,而已有的绝大部分分类算法并不显式地考虑类不平衡问题,导致小类的分类精确性较差,因此在处理不平衡数据上分类效果不理想,往往将小类样本错分为大类,不能达到分类的目的。   一般认为,支持向量机被认为是处理不平衡问题的较理想工具,因为支持向量机的决策过程仅仅受少量的支持向量影响,与其它样本无关,因此受类不平衡的影响有限。本文通过支持向量机、随机森林和线性判别等分类算法的对比实验表明,支持向量机在处理非平衡数据集时并没有显著优势,在部分数据集上甚至表现不如其它算法。为了解释这个问题,本文通过人造数据分析了影响支持向量机分类效果的内在原因,提出了关于类不平衡问题的一个新观点:类不平衡不是简单地表现为不同类别样本在样本数目上的差异,而应该是在决策面附近两类样本的密度。从而很好地解释了为什么支持向量机在处理某些非平衡问题表现突出(文本分类),而在处理其它问题时表现不理想。   另一方面,基于采样的不平衡处理方法,没有考虑大类数据分布中可能存在的多样性,即大类本身包含了多个数据分布。在该情形下,一个线性决策面,是不符合实际数据分布情况的。常用的上采样和下采样方法,即使面临一个线性可分问题,在这种情形下得到的决策面也不符合数据实际分布情况。本文提出了基于聚类的组合支持向量机决策器(Cluster-svms),充分考虑数据本身的特征,利用聚类思想将大类聚成几个子类,再分别与小类形成数个子支持向量机,组合在一起形成决策器。同时考虑到聚类的性质,对决策器的投票机制也做了深入探讨,最终确定采用“一票否决制”。为了测试该算法的分类效果,本文以UCI标准数据库为基础,将其与传统支持向量机、Smote-svm算法等多个分类器进行了对比实验,验证了Cluster-svms算法在综合F-mean、G-mean、及小类准确率等指标的基础上表现优于其它算法。
其他文献
地图点集配准是车辆导航、移动机器人、全景地图等领域中的关键技术之一,它是使两幅空间位置不同的点集经过一系列空间变换后实现空间位置统一的过程。随着计算机视觉、图像处
2019年12月,新冠肺炎疫情在武汉率先暴发并迅速传播至全国范围.随着全国人民一起抗击疫情,目前国内疫情形势已经得到有效控制,但是国外疫情形势却依然十分严峻.这次突发疫情
可穿戴膝关节助力机器人是一款为老年人或肢体齐全的残疾人打造的助力机器人,在医学和军事上有广阔的应用前景。它是最近很多年比较热门的机器入研究领域,属于外骨骼机器人范畴
混沌系统是在确定的非线性动态系统中出现的貌似随机的、不能预测的动力学行为。混沌系统最典型的特征是对初始条件有极其强烈的敏感性。混沌学涉及的领域相当广泛,几乎渗透和
AIM To identify predictors for synchronous liver metastasis from resectable pancreatic ductal adenocarcinoma(PDAC) and assess unresectability of synchronous liv
随着全球产业链的调整及贸易摩擦的叠加影响,宏观经济下行压力增大,经济发展前景仍不明朗.因此企业经营者和个体投资者对于股市走向与行业竞争更加关注.本文基于经济学视角,
以上海市为例,通过访谈及问卷,分析青年对糖摄入的认知、低糖饮料购买行为及低糖市场现状,为低糖食品开发青年市场、政府引导居民健康膳食提供参考.结果 显示,低糖饮料获誉“
分布式发电具有灵活、分散、小型、靠近用户和合理使用清洁能源的特点,可提高局部供电可靠性、减少输电损耗、提高一次能源的利用率以及减少废气排放,满足无电网覆盖地区的用电需求。风能和太阳能在时间上有很强的互补性及其成熟的发电技术,由风力发电机组、光伏阵列、蓄电池等组成的风力太阳能互补发电系统是一类典型的分布式发电方式,以其经济性和可靠性得到广泛的应用。风光互补发电系统的功率优化与协调是保证系统输出稳定电
我从小就喜欢数学,喜欢做数学题与读数学书,读完师范后教小学数学至今.成了名副其实的“孩子王”。二十多年的数学教学经历,从最初的依样画葫芦到逐步的认识和理解.我觉得“小学不
微创手术机器人能够有效地减少手术创伤,降低手术风险,缩短恢复时间,为现代外科医疗技术的发展带来了巨大的变革。本文利用自主研发的新一代运动控制器NMC(Nankai Motion Contro