论文部分内容阅读
由统计学习理论(Statistical Learning Theory,SLT)发展而来的支持向量机(Support Vector Machine,SVM),是一种借助最优化学习方法来处理机器学习(Machine Learning,ML)问题的新技术。该方法对于处理小规模的、维度较高的数据集的分类、预测等复杂情况具有良好的综合表现,有力地解决了传统的分类预测算法的问题,泛化性能十分优异。作为鲁棒性较强的分类和回归算法之一,SVM算法目前在模式识别、文本分类、图像识别与分类、生物信息学、手写字符识别、面部检测、广义预测控制等方面一直发挥着重要作用。本文主要学习了SVM算法的基础理论,并在此基础上结合核函数、模糊隶属函数、代价敏感性学习方法及稀疏化学习等相关知识对SVM模型进行改进,并将其应用于生物活性检测及系统工程数据集的分类等实际问题中。本文的主要研究工作如下:(1)针对SVM算法对类不平衡数据集的分类较为敏感的问题,提出了一种面向类不平衡数据集的改进的基于特征选择的模糊线性规划支持向量分类器(Fuzzy Linear Programming Support Vector Classifier using Kernel,Penalty factors and Feature Selection,KP-FLPSVC-FS)模型。首先,该模型采用代价敏感的学习方法,在SVM模型中引入类不平衡惩罚因子,较好地解决了因类别数量差异过大导致的数据集分类精度降低的问题,提高了模型的分类准确率;其次,该模型提出了重构的模糊核矩阵——将均值模糊隶属函数与重构的核函数相结合,重构的模糊核矩阵有效地降低了噪声及孤立点等异常值对分类的影响,增强了模型的鲁棒性;最后,模型采用线性规划(Linear Programming,LP)的方式求解问题,缩短了算法运行时间,提高了分类效率。通过对药物发现的生物测定数据集的实验,验证了KP-FLPSVC-FS模型的有效性。(2)为了进一步提高SVM模型对冗余特征的约简能力,提出了一种面向冗余特征的基于特征选择的稀疏非线性优化支持向量分类器(Improved Trapezoidal Fuzzy Nonlinear Optimization Support Vector Classifier with Feature Selection,ITF-NOSVC-FS)模型。该模型扩展了SVM算法的功能,不仅提高了对带有噪声的数据集的分类的整体性能,还增强了模型的可解释性。该模型首先对标准梯形模糊隶属函数进行改进,将标准梯形的斜边由直线变为折线以更好的拟合数据分布,通过对输入点计算相应的模糊隶属值,将样本点分为异常值和正常点,以达到去除噪声点和异常点的目的;其次,通过采用权向量的l1范数正则化得到各个特征对分类的贡献或重要性,使模型的解更稀疏,提高了模型的可解释性;最后,模型采用误差向量的l2范数正则化,加大模型中的惩罚项,提高了模型的约简性能。通过对系统工程领域实际数据集进行实验,结果表明ITF-NOSVC-FS模型分类精度更高,适应性更广泛。(3)基于(1)及(2)的研究,为了使(2)中提出的ITF-NOSVC-FS模型更好的适应类不平衡数据集,提高模型的分类准确率,将(1)中的代价敏感惩罚因子方法引入(2)中所提出的模型,提出基于改进梯形模糊化、惩罚因子及特征选择的非线性优化支持向量分类器(Nonlinear Optimization Support Vector Classifier using Improved Trapezoidal Fuzzification,Penalty factors and Feature Selection,ITFP-NOSVC-FS)模型;另外,为提高(1)中提出的KP-FLPSVC-FS模型的抗噪能力,在(1)提出的模型中引入改进的梯形模糊隶属函数,提出基于核、惩罚因子及特征选择的改进梯形模糊线性规划支持向量分类器(Improved Trapezoidal Fuzzy Linear Programming Support Vector Classifier using Kernel,Penalty factors and Feature Selection,KP-ITFLPSVC-FS)模型,并将ITFP-NOSVC-FS模型和KP-ITFLPSVC-FS模型应用于药物发现的生物测定数据集,实验结果显示,上述两个模型均表现良好。最后,本文对(1)、(2)及(3)中提出的四类基于SVM方法改进的分类器进行多方面对比分析,分析发现,融合改进梯形模糊隶属函数和惩罚因子的ITFP-NOSVC-FS模型具有良好的分类性能。