模糊与双重正则化支持向量机的研究及应用

被引量 : 0次 | 上传用户：liubmhz

【摘要】

：

近年来，支持向量机（Support Vector Machine）作为数据挖掘中的一种新方法得到了比较充分的发展与应用.它是以最优化理论为依托，主要用来探求一些不能通过原理分析从观测数据（样本）

【作者】

：

秦传东

【发表日期】

：

2012年期

【关键词】

：

支持向量机模糊隶属度数据域描述双重正则化光滑因子 B氏距离特征基因统计学习理论最小二乘支持向量机大规模样本集不平衡分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，支持向量机（Support Vector Machine）作为数据挖掘中的一种新方法得到了比较充分的发展与应用.它是以最优化理论为依托，主要用来探求一些不能通过原理分析从观测数据（样本）中得到的分类或回归的规律，然后利用这些规律去分析海量数据中无法观测到的数据现象。在线性和非线性优化理论的支持下，SVM具有拟合精度高、选择参数少、推广能力强和全局最优等特点。它较好地解决了数据挖掘中的小样本、高噪声、多野点、高维数的分类和回归实际问题并成为机器学习领域新的研究热点，被广泛应用到模式识别、函数拟合和密度估计等领域。本文主要针对数据分析中的肿瘤特征基因提取、模糊隶属度在支持向量机中应用、不平衡数据的分类、双重正则化支持向量机的性质与应用等问题进行研究，主要研究工作如下：1研究了支持向量机对小样本、高维数的肿瘤特征基因的提取问题.根据结肠癌肿瘤基因表达谱样本的高维数、小样本和高噪声等特点，提出用Bhattacharyya距离对肿瘤基因进行测量，滤除与分类无关的基因，然后用肿瘤基因对支持向量机模型的敏感度进行二次提取。并用它的归一化值对重要基因赋权，形成只有少数重要致病肿瘤基因的新样本集.最后，把支持向量机应用于对新样本集的特征基因进行分析与测试。实验证明这种分析方法提高了肿瘤诊断的准确率。2针对不平衡数据集中类不平衡比比较大的分类问题，利用样本点的特性建立类不平衡调节因子和模糊隶属度，提出平衡模糊支持向量机.首先计算样本协方差矩阵，求得类不平衡调节因子，然后计算各样本点的模糊隶属度，得到各样本对分类超平面的贡献率.类平衡调节因子和模糊隶属度同时对分类器的误差项产生影响，结果表明：这种平衡模糊支持向量机对类不平衡比较大的分类问题具有很好的分类效果.3由于样本中存在很多孤立点或噪声，从而在分析过程中导致支持向量机易产生过学习问题。通过分析模糊支持向量机和临近支持向量机的特点，借鉴它们的优点：模糊隶属度和临近超平面，提出了一种基于数据域描述的模糊隶属度数据处理方法。考虑了样本点到类中心的距离与样本对分类贡献率的关系。这种数据预处理方法的应用使分类问题变得更为清晰和准确。结果表明：采用新的模糊隶属度模糊临近支持向量机算法有较高的识别率，但也耗费了较多的训练时间。4尽管SSVM通过应用Sigmoid积分光滑函数将有约束条件的标准支持向量机问题转化为无条件约束而且可微的凸优化问题，但没有考虑样本集中的野点和噪声对分类超平面的影响，而且Sigmoid积分光滑函数在拐点处的精确度没有多项式光滑损失函数好。本文通过引用多项式光滑损失函数和模糊隶属度组成一种模糊光滑支持向量机.模糊隶属度考虑每个样本点到对分类超平面的贡献率，野点和噪声的贡献率被赋予一个很小的值，影响很小。多项式光滑函数使得无约束可微的优化问题可以选择用BFGS算法和NA算法来求解。实验结果表明这些修改在结果中起到积极的作用。5针对标准L2范数支持向量机和L1范数支持向量机在肿瘤基因分类分析中表现出的优缺点，在利用Bhattacharyya距离剔除部分对分类无关紧要的特征基因从而得到少数高相关至关重要特征基因的基础上，一种双重正则化支持向量机被应用到DNA微阵列分类中。用二次多项式损失函数把这种有约束的优化问题改变为无约束且可微的优化问题，再用BFGS算法来求解.通过对两种肿瘤特征基因数据集实验分析知，该算法对肿瘤特征基因分类具有较强的可行性和有效性。总之，支持向量机理论经过十多年的发展，已经积累了比较坚实的基础，本文主要在现有理论的基础上探求模糊隶属度对几种分类支持向量机的影响和怎样利用数据预处理方法对一些高维数、小样本的数据集进行特征选择。当然笔者也希望将这些方法能够应用到其它的智能优化算法中，希望进一步提高算法的性能。

其他文献

生态研究文献关键词分析对风景园林学科的启示

关键词分析是文献计量的一种方法。它能快速、客观和直观地了解某个学术领域的研究热点和趋势。随着人类对自然环境的重视,近年来有关生态的研究逐渐从纯粹的郊野自然走向城

期刊

风景园林生态学关键词词频分析

中国风景园林未来的关键词

<正>2011年我曾受邀请,在法国肖蒙花园节设计建造一个展览花园,那一年肖蒙花园节展览的主题是"未来花园"。未来是什么?在我的眼里,未来天地之间的一切——蓝天白云、江河湖海

期刊

中国风景园林生态功能风景园林师绿色基础设施

参数编程在数控车削加工中的应用

复杂零件进行数控加工时,可靠、高效的加工程序常常成为提高零件加工的重要手段。参数编程是数控系统提供的一种新的编程方法,合理利用可以简化程序,提高加工效率。利用西门

期刊

复杂零件参数编程R参数

基于VaR-GARCH族模型的我国商业银行汇率风险度量研究

2008年10月由美国次贷危机引发的金融危机全面爆发,一年后欧元危机逐渐蔓延,世界经济正遭受着20世纪70年代以来最为严峻的挑战。国际金融市场剧烈动荡,汇率走势错综复杂,波动

学位

商业银行汇率风险度量VaR-GARCH族模型

复华商业:科技引领多元化房地开发

<正>上海复华商业集团有限公司于2007年投资2亿元人民币注册成立,在全国高校第一家上市公司上海复旦复华科技股份有限公司的大力支持下,共同组建两家合资公司:上海复旦复华商

期刊

产业功能区高新技术园区复旦大学老年医疗商务办公老年康复养老产业商业地产上海复旦

基于无线传感器网络的室内定位技术研究与实现

现代社会人们对生产生活中的安防和智能化的需求越来越高，精确定位技术在许多室内场景的实用性和必要性已经日趋显著，室内定位技术应用前景广阔，具有极大的研究价值和市场需求。

学位

室内定位无线传感器网络ZigBeeRSSI测距

天丹通络胶囊的近红外检测方法研究

目的建立天丹通络胶囊的近红外漫反射检测方法。方法建立2种模型检测样品,判断药品的真伪,通过2种模型的交叉验证保证了检测结果的准确性。结果与结论方法快速、简单,结果准

期刊

近红外漫反射光谱天丹通络胶囊

刊首语

<正>当今是以计算机和网络技术为代表的信息时代,我们的生活早已与数字技术产生了密切的关系。几乎身边的每一个人都在使用电脑、手机等数字产品,一有时间就在刷新微信朋友圈

期刊

数字技术刊首语BIM

气象雷达的数字中频接收机系统研究

气象雷达在军用和民用领域都有广泛的用途，气象雷达数字中频接收机是影响气象雷达性能的重要分系统。本论文开展了XXX型气象雷达探测系统数字中频接收机的理论与应用研究。该

学位

气象雷达单脉冲测角数字中频接收机串/并口通信现场可编程门阵列

莱芜市城市营销战略研究

20世纪90年代以来，随着新科技革命和信息技术的加速发展，全球化竞争的时代随之到来，城市之间的竞争日趋激烈，由此每个城市必须积极采用各种政策和策略来争取有利于城市发展的生产

学位

城市营销战略城市定位城市品牌

模糊与双重正则化支持向量机的研究及应用

与本文相关的学术论文