基于高维小样本数据和类别不平衡数据的反距离加权支持向量机

来源 :山东大学 | 被引量 : 0次 | 上传用户:x_schen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类的目的在于根据其特征将数据“分门别类”,在数据挖掘中的研究中备受人们的关注。分类问题包含了两个基本过程:学习和分类。在学习的过程中,利用有效的学习方法,从已知类别的训练数据集中学习一个分类器;在分类的过程中,使用学习得到的分类器,对类别未知的数据进行分类。由此可见,分类的准确程度依赖于分类器的准确性,所以分类的重点在于分类器的学习。支持向量机(SVM)和距离加权判别(DWD)是两个非常常用的分类算法,其搜索最佳分离超平面的策略均是使得间隔最大化。在SVM中,只有支持向量才会对分离超平面的学习有影响,所以对类别不平衡数据不敏感。但是,在损失最小化的过程中,SVM容易出现高维小样本数据下的“数据堆积”现象,即在分离超平面两侧的间隔边界上堆积了很多样本点(即支持向量),造成过度拟合。在DWD中,所有样本点都对分离超平面的学习有不同程度的影响,所以可以有效地解决高维小样本数据的过拟合问题。但是,面对类别不平衡数据时,DWD为了减少整体误分类,容易偏向于多数类,从而将分离超平面推向少数类一侧。灵活分类器(FLAME)和距离加权支持向量机(DWSVM)的提出,就是为了解决上述提到的高维小样本数据的过拟合问题和类别不平衡数据的敏感问题。FLAME和DWSVM都继承了 SVM和DWD的优点,同时缓解了过度拟合和对类别不平衡敏感这两个问题,前者通过对损失函数的优化来实现,而后者则通过对最优化问题中的目标函数的优化来实现。模糊支持向量机(FSVM)是从SVM发展而来的,通过引入模糊隶属度(加权系数)使得不同的样本点对分离超平面的学习作出不同的贡献,同时也继承了SVM的优点。本文在分析了高维小样本数据的过拟合(数据堆积)问题和类别不平衡数据的敏感问题之后,借鉴FLAME和DWSVM,有效地结合了 FSVM可以解决类别不平衡数据的敏感问题和DWD可以解决高维小样本数据的过拟合问题的良好分类性能,将DWD中的反距离运用到FSVM中的模糊隶属度上,提出了一个二类线性分类新算法——反距离加权支持向量机(IDWSVM),既可以解决类别不平衡数据分类的敏感问题,也可以解决高维小样本数据分类的过拟合问题。最后通过理论分析和实例论证,都证明了 IDWSVM确实可以解决上述两个分类问题。在本文的最后,对新算法IDWSVM进一步发展,提出了将此二类线性分类算法拓展到非线性分类和多类分类的想法。一方面,可以引入核技巧的思想,将非线性数据集映射到更高维度的线性数据集上,来解决非线性分类的问题;另一方面,可以通过“一对一”和“一对多”的思想,来解决多类分类的问题。
其他文献
中子星的性质主要由物态方程决定,结合星体结构方程(TOV方程),可理论研究中子星的可观测参数,如质量M、半径R。然而,由于高密非对称核物质核核相互作用的复杂性,目前人们对高密非对称核物质的物态方程的认识还相当有限。这就使得人们想要直接通过物态方程信息来研究中子星的性质遇到阻碍。但从另一方面考虑,恒星内的声速作为反映星体内部物质的不可压缩性和物态方程软硬程度的重要参数,其上限可决定中子星理论上的最大
在太阳能热发电的吸热、传热和储热工艺段中,高温熔盐调节阀是核心设备之一,其主要作用是对高温状态下的熔融盐进行压力和流量的精确调节,由于高温熔盐具有强烈的化学腐蚀特
背景和目的:免疫抑制受体LILRB4主要表达在正常单核细胞、巨噬细胞以及部分抗原递呈细胞表面,我们前期研究结果表明:LILRB4可以作为急性髓系白血病(AML)M4和M5亚型的诊断标记
临界滑动场理论经过20多年的不断发展和完善,在边坡工程中,已日益成为理论成熟、运行高效的稳定性计算方法。本文在回顾总结临界滑动场研究和应用现状的基础上,分析前人在该
银额盆地居延海坳陷勘探程度低,到目前为止缺乏对该盆地石炭-二叠系泥页岩取心样品的认识。本论文以银额盆地居延海坳陷石炭-二叠系泥页岩为研究对象,通过实验测试分析、测井
在经济社会急速转型、市场竞争日益激烈的时代背景下,企业是否可以适应复杂地环境变化,是关系到企业可否安身立命、持久发展的重要问题。上市公司为在不断变化的环境中保留和提升自身独特的资源优势和竞争优势,往往会选择偏离行业主流战略趋势,从而产生战略差异。企业为适应环境变化的带来的挑战,选择差异化战略的同时可能加大信息不对称程度,带来经营风险,造成企业内部控制缺陷,从而对企业违规行为产生影响。此外,随着我国
今后几十年期间石油依然在全球能源组成中占据主导地位,但与此同时在全球范围内还广泛存在着石油采收率较低的问题。因此采用三次采油技术对地层下剩余石油进行进一步合理有
随着科学技术迅速的发展,农业信息技术逐渐成为新农业科技革命的重要标志。农业智能化系统成为丰富农业专业知识和传播农业信息的重要手段,促进了农业快速发展,为实现农业信
耀变体是活动星系核的一个特殊而重要的子类。由于其喷流与视线方向的夹角很小,耀变体有很多极端的观测性质,而且发现低能峰频与射电/光学/X射线波段谱指数有关,即是说峰频可以通过三个波段的有效谱指数来估算。但是这种关系在低能峰频比较好,而对于峰频比较高的源估算差别很大。为了进一步分析这个问题,本文中选取了68个费米耀变体的多波段数据,计算了它们的能谱分布,研究了它们的同步辐射峰参数和宽波段谱指数之间的关
随着化石能源的消耗和环境的污染,生物质能源的研究受到国内外广泛的关注。农业废弃物作为我国主要的生物质资源,其清洁高效转换技术的开发对于推进能源结构的多元化、加快经