基于支持向量机的不平衡数据分类算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:kittyleung1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine,SVM)是基于统计学习理论发展起来的一种机器学习算法,具有坚实的理论基础和良好的分类效果。但对不平衡数据进行分类时,SVM算法学习得到的超平面会偏向少类样本,导致少类样本的分类效果较差。现实生活中许多分类问题都呈现出高度不平衡特性,因此本文针对SVM算法对不平衡数据分类效果较差的问题展开研究,提出了一种改进的SVM算法。论文的主要研究内容分为以下几个方面:1.介绍了统计学习理论的相关背景知识,并对基于统计学习理论形成的SVM算法的基本原理和实现过程进行阐述说明。2.基于理论和实验分析,归纳出不平衡数据影响SVM算法分类效果的五个因素。基于国内外研究现状,对典型的改进方法进行分析,通过实验对各类算法进行性能比较,并对重采样技术和SVM改进算法各自的局限性进行总结。3.基于现有的面向不平衡数据的SVM算法,提出了一种复合支持向量机算法 HSVM(Hybrid Support Vector Machine)。通过自适应合成采样(Adaptive Synthesis sampling,ADASYN)算法和不同错误代价(Different Error Cost,DEC)算法相结合,克服使用单一改进算法的局限性,有效地改善不平衡数据对超平面造成的偏移。4.针对类内不平衡对分类效果造成的影响,引入一种新的修正算法对预测模型进行修正。将错误划分到多类中的少类子类人工挑选出来,并加入预测模型,对落入这些少类子类范围的输入点进行预测值修正,使其尽可能地预测为少类,提高预测模型对于不同数据特性的适应性。
其他文献
人口老龄化的发展、家庭养老功能的不断弱化,加上我国还未建设健全的社会化养老服务体系,使得我国的养老服务发展面临了巨大的挑战。蚌埠市作为一个我国经济发展欠发达的中小
绿化混凝土是一种可以代替普通混凝土进行施工的生态工艺材料。绿化混凝土的骨料不采用砂,而是大量使用玻璃、拆除的混凝土等再生材料,采用特殊的配比,使颗粒之间有较大的孔
目的探讨妊娠期糖尿病(gestational diabetes mellitus,GDM)孕产妇孕前体重指数(BMI)与母婴结局的关系,以期提供孕前体重管理的相关依据。方法回顾性分析194例经产前门诊常规
山西省中西医结合医院建院于1939年,是山西省规模最大的集医疗、教学、科研、预防、康复等功能为一体结合医院,
目的通过测定乳腺癌组织中树突状细胞的计数,探讨其与乳腺癌临床病理特征(病理分类、组织分化程度、腋窝淋巴结转移、患者年龄、月经状况)的关系,阐明乳腺癌中树突状细胞的分布表
采用黑龙江和吉林两省区的53个大豆品种(品系)进行豆浆加工,并对大豆品种籽粒品质指标、豆浆品质特性指标等进行测定、分析。结果表明:不同大豆品种籽粒品质指标及豆浆品质指
针对厦门柔直换流站内组合式空气处理机组ZK40、多联空调机组产生的冷凝水较多,换流阀外冷水的用水量较高这一现状,研究柔直换流站空调系统冷凝水再回收装置,利用该装置收集
目的:观察足月新生儿 ABO 血型不合溶血病不同时期光疗治疗的效果。方法选择新生儿中的ABO血型不合溶血病患儿76例,将患儿分为观察组与对照组各38例,监测和记录光疗过程中血清胆
信息化深刻影响教育,以信息化全面推动教学现代化既是时代性的崭新课题,也是职业教育现代化发展的必由之路,我国职教界围绕此大胆探索创新,推出一系列创新举措,开展丰富的创
目的探讨临床感染葡萄球菌的构成特点及其耐药状况,为合理使用抗菌药物提供依据。方法收集临床患者的葡萄球菌384株,应用DL-96微生物自动鉴定系统进行鉴定和药物敏感试验;耐