基于分类噪声检测的支持向量机算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:gxlzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine,SVM)是基于统计学习理论的一种优秀的机器学习方法。它在最基本的线性可分问题中,采用与结构风险最小化理论一致的间隔最大化原理产生原始凸规划问题模型,使得基本问题模型具有良好的泛化能力。并且由于模型是凸规划模型,所以能够获得全局最优解。在获得这些良好特性的基础上,通过引入惩罚系数和惩罚因子来获得线性不可分问题的问题模型。并通过进一步使用核函数理论来解决非线性问题,从而避免了维数灾难。由于其优异的性能,已经广泛应用于模式分类,密度估计和函数逼近等领域,成为机器学习中的研究热点。本文围绕支持向量机在分类问题中的训练过程和过学习现象,瞄准高维数据中的相对密度计算及与支持向量机的结合为关键问题,以提高支持向量机的训练速度为主要目的,其具体的研究成果主要包括以下几个内容:①通过分析分类问题中噪声数据的特点,引入分类噪声的概念,提出了相对密度模型对其进行检测。分类问题中的噪声数据会明显减弱决策曲线的平滑度,降低决策函数的泛化能力,从而引起过拟合,因而挖掘这些噪声数据具有重要意义。本文针对现有算法无法有效检测分类问题中的噪声数据的问题,基于噪声数据在同类样本集合中的样本密度要小于在异类样本集合中的样本密度,引入了分类噪声的概念,进一步提出了相对密度模型来对分类噪声进行快速有效地检测。仿真实验表明相对密度模型能够很好的识别分类噪声。②通过排除分类噪声将不可分问题转化为可分问题,简化了支持向量机模型和训练过程,并结合序列最小优化(Sequential Minimal Optimization,SMO)算法,提出了基于分类噪声检测的序列最小优化算法(Classification Noises Detection based Sequential Minimal Optimization,CNSMO)。针对现有的支持向量机在训练过程中依赖交叉验证会大幅增加训练时间的问题,CNSMO算法通过排除分类噪声后平滑了决策函数,避免了分类噪声产生的过学习现象,因此在训练过程中不需要使用交叉验证也能够获得良好的预测精度。同时,由于排除分类噪声将不可分问题转化为可分问题,不需要对惩罚系数进行寻优,简化了拉格朗日参数迭代模型。仿真结果表明改进算法能够在不牺牲算法预测精度的前提下,大幅缩短了支持向量机的训练时间,算法具有良好的稳定性。③通过计算到某些固定参考点的度量来衡量不同样本之间的位置差异,以避免直接计算样本之间的欧式距离,提出了基于位置差异的近邻搜索算法(Location Difference based Algorithm,LDBA)。针对在相对密度计算中使用的现有近邻算法在高维数据集中性能下降的问题,LDBA算法使用参考点与样本所构成的角度和距离来度量不同样本点之间的位置差异,避免对样本之间的欧式距离直接进行计算,因此具有较低的算法时间复杂度。另外,LDBA算法不依赖索引树结构,因此在高维数据集中仍然能够保持良好的算法效率。仿真结果表明LDBA算法具有和基本算法接近的预测精度,但比同类算法在高维数据集中表现出了更好的算法效率。④通过将LDBA算法结合到CNSMO算法中,提出了基于位置差异和分类噪声的最小序列化支持向量机算法(Location Difference and Classification Noise based Sequential Minimal Optimization,LD-CNSMO)。针对CNSMO算法在高维数据集中性能下降的问题,将LDBA算法结合到相对密度的计算过程中以检测和消除分类噪声,提出了LD-CNSMO算法。由于LDBA算法不依赖树索引结构,因此LD-CNSMO算法能够在高维数据集中保持良好的算法效率。仿真结果表明LD_CNSMO算法在高维数据集中能够获得比CNSMO和其他算法更好的算法效率。本论文引入分类噪声后,通过使用基于LDBA的相对密度模型进行检测和排除分类噪声,并结合到SMO支持向量机中,避免了在支持向量机训练过程中使用交叉验证。在不影响算法泛化能力的情况下,大幅度提高了算法在低维和高维数据集中的训练效率,并增强了算法稳定性,有效地提高了支持向量机的算法性能。
其他文献
随着社会的不断发展,早期教育备受关注,发展迅速,促使早期教育行业迅速兴起。在这种背景下,早期教育形象设计与之一起发展起来,重视视觉识别系统的应用,积极借鉴先经验,引进
高速公路建设对社会经济发展的促进作用是必然存在时序性的。本文首先说明DEA模型的基本原理,进而构建高速公路对社会经济贡献效率的DEA模型,再以第一产业为例,通过高速公路
<正> 据统计,世界肺癌发病率不断升高,1975年全世界估计有600,000例肺癌患者,而1985年全世界约有1,000,000例肺癌患者。目前,用于肺癌的诊断,除了病史分析及临床检查外,最常
在知识经济时代,英语作为世界语言之一的地位日益提升,提高中学生的英语语言能力就显得尤为重要。那么如何提高他们的英语语言能力呢,这涉及到教师如何教,学生如何学等很多方面的
<正>药明康德新药开发有限公司(NYSE:WX)成立于2000年,是一家全球领先的制药、生物技术及医疗器械的外包服务公司,分别在中美两国设有运营实体。作为一家以客户为导向、创新
会议
[摘要] 改革以来,农户已成为我国农业的微观经济主体,他不仅是一个经济单位、也是一个社会单位。现在正由传统的农村社会向现代型社会转型。对于农户来说,它的决策、投资和劳动力经营行为等都受到各种正式的和非正式制度的影响。因此,制度变迁下经济市场化对我国农户经营行为影响的研究就是一个极具现实意义的课题。基于此,本文通过对国内外文献的考察,探析该项研究取得的进展并指出其不足之处,并对将来的研究方向进行展望
介绍了数字电视机顶盒的基本原理和以有线电视传输网络为传播载体的数字电视机顶盒的设计原理,以及在实现过程中所用到的数据的调制与解调技术、加解扰技术和复用与解复用技
社会保障基金投资营运过程由三级委托代理关系和两种辅助性的委托代理关系构成,这种委托代理结构精巧地将社会保障基金投资运营过程的参与主体有机地组织起来,在考虑社会保障
本文首先简要介绍了电子设备内部印制电路四种散热结构设计:冲击式、冷板式、平板热管式、空心板式.根据机载的要求——重量轻、体积小、耐振动冲击、可靠性高以及器件局部发
主要概述了灌封技术在电子产品中的应用、灌封对象的选择、灌封材料的优选以及灌封时注意的几个问题。