用于不平衡数据分类的模糊多类支持向量机算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:cmm870811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代是一个数据的时代,各行业领域每天都获取了庞大的数据,这些数据蕴含的规律引起了人们的高度重视,数据挖掘技术的研究需求在这一大背景下更为急迫。分类问题作为数据挖掘中的经典问题,一直是学术界讨论的热点之一。支持向量机是目前十分流行的分类算法之一,其泛化能力强,可以较好地解决小样本、非线性、过拟合、维数灾难和局部极小点等问题。支持向量机在平衡数据集上分类效果很好,然而在不平衡数据集上其分类结果具有偏向性,少数类的分类精度很低,且支持向量机容易受到数据集中的噪声样本的影响,导致分类结果出现偏差。针对支持向量机在不平衡且含噪声数据集上分类效果不理想的问题,本文分别从算法层和数据层两方面进行研究,提出两种数据分类模型,具体内容如下:  (1)从算法层面入手,提出基于类重叠度的非平衡模糊多类支持向量机算法。算法采用训练样本点到其类内中心的距离和类重叠度加权的方法设计样本模糊隶属度函数,根据样本点的重要程度,分配相应的隶属度值,提高支持向量点的权重,降低噪点的权重。同时采用不平衡类调节因子,降低不平衡数据对分类结果的影响。在多分类问题中,与传统的模糊支持向量机相比,该算法可以有效地处理不平衡数据分类和噪声问题。  (2)从数据层面入手,提出基于LOF去噪和类重叠度欠采样的非平衡模糊多类支持向量机算法。首先对数据集进行预处理,采用LOF局部离群点因子和箱线图结合的方法删除训练数据集中的噪声样本。然后设置合适的采样数目,根据类重叠度抽取对分类起关键作用的支持向量。预处理过后的数据集最大限度地维持了原有的数据分布信息,并且降低了原数据集的不平衡比例。算法最后将代表每个样本点的重要程度的类重叠度作为隶属度值,构造模糊多类支持向量机。实验结果表明,该算法在能够在很好地保证分类精度的同时,大大地缩减运行时间。
其他文献
“高”书记并不姓高,而姓赵,名字叫赵忠顺,河北省饶阳县委书记、人武部党委第一书记。只因他抓人武工作总是棋高一招,人武部的同志都称他“高”书记。全面建设小康社会民兵
地下水水流模型和地下水水质模型都包含着许多随机因素,并受到这些因素的制约和影响,从而使它们具有一定程度的不确定性,把模型应用于预测和管理时,一个很重要的问题是怎样把
该文在R空间中,利用局部Lipschitz函数的广义方向导数这一概念给出了不变凸函数的概念,并给出了伪不变凸,拟不变凸等概念,在这些概念的基础之上,证明了多目标分式规划的最优
本文的研究是国家科技支撑计划——社区生活圈互动服务平台及应用示范项目的一部分。社区服务中心是由政府倡导,建立于社区、服务于社区的公办或民办机构。盈利模式的研究是现
在对晶体材料的研究中,对微结构的理解和计算起着重要的作用.Martensitic晶体 在高温状态下是一个对称的固态,称为Austensitic晶体,而在低温状态下就是Martendite ,它具有特
STAR(Small Tool for Algebraic Research)计划是国家"九五"攀登计划"数学机械化研究及其应用"的子课题--"基于吴方法的数学研究软件的研制与开发"的子项目.在STAR计划支
随着计算机、多媒体及网络技术的迅猛发展,数字产品极大丰富,并轻而易举就可通过网络获得。这导致数字产品在不受任何控制的情况下会被轻易拷贝、操作和改动。数字水印技术的
该文探讨了模式识别中算法或软件对数据的样本结构和特征品质是否有所改进的评价方法和标准,给出了几种评价的统计方法;提出了一种动态刻划数据特征品质的方法.
求解一个一般实方阵的所有特征值的问题研究人员常常是化为一个三对角矩阵的特征什问题来求解的,广义特征值问题上也有类似的处理方法。有大量的文献讨论三对角矩阵的性质,以及
该文主要内容是在放射性核素双重介质迁移数学模型基础上,考虑地壳应力场及温度场对核素迁移的作用机制,完善核素迁移规律研究上的理论基础,充分反映了地层中核素迁移的作用