融合特征选择功能的模糊支持向量机方法与应用研究

来源 :鲁东大学 | 被引量 : 0次 | 上传用户:silversandcgliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由统计学习理论(Statistical Learning Theory,SLT)发展而来的支持向量机(Support Vector Machine,SVM),是一种借助最优化学习方法来处理机器学习(Machine Learning,ML)问题的新技术。该方法对于处理小规模的、维度较高的数据集的分类、预测等复杂情况具有良好的综合表现,有力地解决了传统的分类预测算法的问题,泛化性能十分优异。作为鲁棒性较强的分类和回归算法之一,SVM算法目前在模式识别、文本分类、图像识别与分类、生物信息学、手写字符识别、面部检测、广义预测控制等方面一直发挥着重要作用。本文主要学习了SVM算法的基础理论,并在此基础上结合核函数、模糊隶属函数、代价敏感性学习方法及稀疏化学习等相关知识对SVM模型进行改进,并将其应用于生物活性检测及系统工程数据集的分类等实际问题中。本文的主要研究工作如下:(1)针对SVM算法对类不平衡数据集的分类较为敏感的问题,提出了一种面向类不平衡数据集的改进的基于特征选择的模糊线性规划支持向量分类器(Fuzzy Linear Programming Support Vector Classifier using Kernel,Penalty factors and Feature Selection,KP-FLPSVC-FS)模型。首先,该模型采用代价敏感的学习方法,在SVM模型中引入类不平衡惩罚因子,较好地解决了因类别数量差异过大导致的数据集分类精度降低的问题,提高了模型的分类准确率;其次,该模型提出了重构的模糊核矩阵——将均值模糊隶属函数与重构的核函数相结合,重构的模糊核矩阵有效地降低了噪声及孤立点等异常值对分类的影响,增强了模型的鲁棒性;最后,模型采用线性规划(Linear Programming,LP)的方式求解问题,缩短了算法运行时间,提高了分类效率。通过对药物发现的生物测定数据集的实验,验证了KP-FLPSVC-FS模型的有效性。(2)为了进一步提高SVM模型对冗余特征的约简能力,提出了一种面向冗余特征的基于特征选择的稀疏非线性优化支持向量分类器(Improved Trapezoidal Fuzzy Nonlinear Optimization Support Vector Classifier with Feature Selection,ITF-NOSVC-FS)模型。该模型扩展了SVM算法的功能,不仅提高了对带有噪声的数据集的分类的整体性能,还增强了模型的可解释性。该模型首先对标准梯形模糊隶属函数进行改进,将标准梯形的斜边由直线变为折线以更好的拟合数据分布,通过对输入点计算相应的模糊隶属值,将样本点分为异常值和正常点,以达到去除噪声点和异常点的目的;其次,通过采用权向量的l1范数正则化得到各个特征对分类的贡献或重要性,使模型的解更稀疏,提高了模型的可解释性;最后,模型采用误差向量的l2范数正则化,加大模型中的惩罚项,提高了模型的约简性能。通过对系统工程领域实际数据集进行实验,结果表明ITF-NOSVC-FS模型分类精度更高,适应性更广泛。(3)基于(1)及(2)的研究,为了使(2)中提出的ITF-NOSVC-FS模型更好的适应类不平衡数据集,提高模型的分类准确率,将(1)中的代价敏感惩罚因子方法引入(2)中所提出的模型,提出基于改进梯形模糊化、惩罚因子及特征选择的非线性优化支持向量分类器(Nonlinear Optimization Support Vector Classifier using Improved Trapezoidal Fuzzification,Penalty factors and Feature Selection,ITFP-NOSVC-FS)模型;另外,为提高(1)中提出的KP-FLPSVC-FS模型的抗噪能力,在(1)提出的模型中引入改进的梯形模糊隶属函数,提出基于核、惩罚因子及特征选择的改进梯形模糊线性规划支持向量分类器(Improved Trapezoidal Fuzzy Linear Programming Support Vector Classifier using Kernel,Penalty factors and Feature Selection,KP-ITFLPSVC-FS)模型,并将ITFP-NOSVC-FS模型和KP-ITFLPSVC-FS模型应用于药物发现的生物测定数据集,实验结果显示,上述两个模型均表现良好。最后,本文对(1)、(2)及(3)中提出的四类基于SVM方法改进的分类器进行多方面对比分析,分析发现,融合改进梯形模糊隶属函数和惩罚因子的ITFP-NOSVC-FS模型具有良好的分类性能。
其他文献
随着水产养殖行业的快速发展,由水产病原菌引发的水产病害日益严重,给水产养殖行业带来巨大的经济损失。水产病害种类多、病害持续性强、宿主广泛,流行范围广,难以防控。近年来,由于抗生素等传统抑菌剂的滥用,多种水产致病菌对不同抗生素均产生不同程度的耐药性,导致水产病害问题更加严重。纳米银(Silver nanoparticles,AgNPs)作为新型抑菌剂具有广谱杀菌、长效抑菌、安全性高、稳定性好、不易产
碱性磷酸酶(alkaline phosphatase,E.C.3.1.3.1,ALP)是一种磷酸单酯水解酶,它普遍存在于除一些高等植物外的原核及真核生物中。作为现代生物化学中不可或缺的代表性调节剂,ALP涉及到生化过程的多个方面,包括代谢、信号转导、分子运输、遗传信息的表达及免疫防御等生命活动。它在临床医学、食品检测、土壤与环境监测、生物学基础研究等多个领域中应用广泛。头索动物文昌鱼(Branch
全域旅游发展战略的提出对旅游资源整合提出了新要求。旅游资源整合不仅是实施全域旅游战略的新要求,更是实现全域旅游高质量发展目标的重要途径。烟台市旅游资源丰富,类型多样,组合度绝佳。近年来,围绕建设宜居宜业宜游城市和现代化国际滨海城市,加快推进文旅融合发展,全域旅游高质量发展迈出新步伐。随着我国经济发展由高速增长向高质量发展的阶段转化以及全域旅游发展战略的实施,烟台市旅游业必然面临着深化区域整合开发、
学位
钙钛矿材料由于具有高的吸收系数和载流子迁移率、较长的载流子扩散距离、较低的缺陷态密度、可调的发光波长等特点,成为近年来半导体光电材料领域中的“超级明星”。钙钛矿材料的应用方向从太阳能电池延伸到了光探测器(PD)、发光二极管(LED)、激光器(LD)等各种光电器件并取得了突破性的进展。目前,有机无机杂化钙钛矿、全无机钙钛矿薄膜材料主要采用溶液法制备,容易出现结构缺陷以及薄膜不均匀等问题,这限制了钙钛
飞秒激光直写技术是一种利用飞秒激光对基片表面的光刻胶实施曝光、显影后得到所要求结构的激光加工技术。它可以在尺寸上实现微纳级别的加工,并且可以通过电脑控制高精度位移台、振镜等机械器件实现高精度三维结构的制备。飞秒激光聚焦光斑中心的能量密度很高,可以作用于光刻胶使其发生基于双光子吸收的双光子聚合(TPP)反应实现超衍射极限的微纳加工。然而,在实际应用中,人们对激光加工的速度和效率有一定的要求,例如,大
作为信息交流和传递的关键渠道,互联网技术日益普及。然而,由于互联网信息的公开性,各类数字产品在网上传输的同时,也产生了一系列诸如盗版、侵权、篡改的问题。因此,版权保护问题开始得到广大学者的重视。数字水印作为版权保护的重要途径和必要手段,在过去的二十年间取得了较大的发展。本文对5G新环境下的版权保护进行了深刻思考,针对彩色数字图像的版权保护问题,设计了以彩色图像作为版权标识的四种高性能的图像水印新算
互联网等技术的飞速发展,全球进入大数据时代,“网络社会”崛起,互联网被广泛应用于旅游企业、旅游目的地的建设与发展中,旅游活动自地理场所延伸至网络空间,旅游业日益信息化,地方空间逐渐向流动空间转变。黄河流域对我国的经济与生态意义重大,“黄河流域生态保护与高质量发展”已上升国家战略。本研究基于百度指数大数据平台,以2011-2018年黄河流域城市间旅游信息流出、流入量为研究对象,在分析黄河流域城市旅游
近年来,随着我国经济社会的快速发展,城市交通压力越来越大,地铁成为减缓地面交通拥堵的重要举措。盾构法是地铁隧道安全施工的主要手段,但是在以往的施工过程中,盾构机掘进参数的控制大多依赖于过往的经验以及操作员的临场操作。因此,寻找掘进数据之间的规律,厘清各个参数之间的关系,为以后类似盾构施工提供科学指导,已成为一个迫在眉睫的问题。本文依托济南地铁R2线盾构数据,运用数据挖掘技术,通过对盾构数据的预处理
本文基于模型预测控制(model predictive control,MPC)策略,研究了离散多智能体系统(multi-agent system,MAS)一致性问题.由于MAS广泛应用于军事和民用领域中,其一致性问题受到了广泛关注,重点集中在一致性分析和控制协议设计方面.本文分别考虑了具有通讯时滞和具有固定拓扑的离散MAS,利用MPC策略研究上述两类系统的一致性问题,具体如下:对于具有通讯时滞的