论文部分内容阅读
近年来,支持向量机(Support Vector Machine)作为数据挖掘中的一种新方法得到了比较充分的发展与应用.它是以最优化理论为依托,主要用来探求一些不能通过原理分析从观测数据(样本)中得到的分类或回归的规律,然后利用这些规律去分析海量数据中无法观测到的数据现象。在线性和非线性优化理论的支持下,SVM具有拟合精度高、选择参数少、推广能力强和全局最优等特点。它较好地解决了数据挖掘中的小样本、高噪声、多野点、高维数的分类和回归实际问题并成为机器学习领域新的研究热点,被广泛应用到模式识别、函数拟合和密度估计等领域。本文主要针对数据分析中的肿瘤特征基因提取、模糊隶属度在支持向量机中应用、不平衡数据的分类、双重正则化支持向量机的性质与应用等问题进行研究,主要研究工作如下:1研究了支持向量机对小样本、高维数的肿瘤特征基因的提取问题.根据结肠癌肿瘤基因表达谱样本的高维数、小样本和高噪声等特点,提出用Bhattacharyya距离对肿瘤基因进行测量,滤除与分类无关的基因,然后用肿瘤基因对支持向量机模型的敏感度进行二次提取。并用它的归一化值对重要基因赋权,形成只有少数重要致病肿瘤基因的新样本集.最后,把支持向量机应用于对新样本集的特征基因进行分析与测试。实验证明这种分析方法提高了肿瘤诊断的准确率。2针对不平衡数据集中类不平衡比比较大的分类问题,利用样本点的特性建立类不平衡调节因子和模糊隶属度,提出平衡模糊支持向量机.首先计算样本协方差矩阵,求得类不平衡调节因子,然后计算各样本点的模糊隶属度,得到各样本对分类超平面的贡献率.类平衡调节因子和模糊隶属度同时对分类器的误差项产生影响,结果表明:这种平衡模糊支持向量机对类不平衡比较大的分类问题具有很好的分类效果.3由于样本中存在很多孤立点或噪声,从而在分析过程中导致支持向量机易产生过学习问题。通过分析模糊支持向量机和临近支持向量机的特点,借鉴它们的优点:模糊隶属度和临近超平面,提出了一种基于数据域描述的模糊隶属度数据处理方法。考虑了样本点到类中心的距离与样本对分类贡献率的关系。这种数据预处理方法的应用使分类问题变得更为清晰和准确。结果表明:采用新的模糊隶属度模糊临近支持向量机算法有较高的识别率,但也耗费了较多的训练时间。4尽管SSVM通过应用Sigmoid积分光滑函数将有约束条件的标准支持向量机问题转化为无条件约束而且可微的凸优化问题,但没有考虑样本集中的野点和噪声对分类超平面的影响,而且Sigmoid积分光滑函数在拐点处的精确度没有多项式光滑损失函数好。本文通过引用多项式光滑损失函数和模糊隶属度组成一种模糊光滑支持向量机.模糊隶属度考虑每个样本点到对分类超平面的贡献率,野点和噪声的贡献率被赋予一个很小的值,影响很小。多项式光滑函数使得无约束可微的优化问题可以选择用BFGS算法和NA算法来求解。实验结果表明这些修改在结果中起到积极的作用。5针对标准L2范数支持向量机和L1范数支持向量机在肿瘤基因分类分析中表现出的优缺点,在利用Bhattacharyya距离剔除部分对分类无关紧要的特征基因从而得到少数高相关至关重要特征基因的基础上,一种双重正则化支持向量机被应用到DNA微阵列分类中。用二次多项式损失函数把这种有约束的优化问题改变为无约束且可微的优化问题,再用BFGS算法来求解.通过对两种肿瘤特征基因数据集实验分析知,该算法对肿瘤特征基因分类具有较强的可行性和有效性。总之,支持向量机理论经过十多年的发展,已经积累了比较坚实的基础,本文主要在现有理论的基础上探求模糊隶属度对几种分类支持向量机的影响和怎样利用数据预处理方法对一些高维数、小样本的数据集进行特征选择。当然笔者也希望将这些方法能够应用到其它的智能优化算法中,希望进一步提高算法的性能。