论文部分内容阅读
支持向量机作为一种机器学习方法,能够有效地解决局部极小、过学习和维数灾难等问题。尽管如此,训练时间长、易受训练样本中噪声或孤立点影响等缺陷成为支持向量机在实际应用中的短板。为了更好地解决噪声、孤立点问题,模糊支持向量机应运而生,它根据各样本点在分类过程起到的不同作用而对其赋予不同的隶属度值,从而有效地解决了噪声点问题,使得分类效果更为精确。基因分类是生物信息领域一个亟待解决的问题,其研究、分析对辅助疾病的诊断和治疗有很高的医学应用价值。随着基因数据的处理及挖掘技术的发展,支持向量机作为一种潜在有效的数据挖掘技术已经成为基因分类的一个重要工具。本文以此为背景,着重研究了模糊支持向量机中隶属度函数的设计方法及其在基因分类中的应用,主要工作如下:1.现有的隶属度函数大多是根据样本点与其类中心之间的距离来设计的,这类设计方法往往对样本的几何分布存在依赖性,而且忽略了样本点的空间关系及其本身的类别属性在分类中所起的作用。针对这些问题,提出两种改进的模糊支持向量机:基于类内超平面的改进模糊支持向量(PHFSVM)及基于类向心度的模糊支持向量机(CCD-FSVM)。PHFSVM用类内超平面代替类中心,根据每类样本数据与其类内超平面的距离定义隶属度,加大了对容易被错分样本的惩罚,同时对离分类超平面较远且不可能成为支持向量的样本直接赋予较小的隶属度值,直接减少了求解隶属度的计算量;CCD-FSVM结合样本点与类中心、类中样本点之间的联系,用类向心度来表示这种关系,而且可以通过向心度的大小,对混合度比较高的样本进行区分,从而达到提高分类精度的效果。2.传统支持向量机建立在样本数量大体一致的基础上,当被用于不平衡数据的分类时,就会产生很大的偏向性,因而不能对少数类样本正确分类,降低了分类性能。在不平衡数据分类问题的实际应用中,少数类样本的信息往往对分类更加重要,人们更希望算法能够提高对少数类样本的识别率。文中分析了样本数量在隶属度函数设计过程中所起的作用,提出基于不平衡数据分类的模糊支持向量机(BFSVM),它在考虑样本点关系的同时,加入了样本数对隶属度的影响,从而改善了不平衡数据分类中对少数样本分类的识别率。3.基因数据的特点是小样本、高维度,结合基因的生物学意义,在对其分类之前需要进行降维处理。文中用顺序向前浮动搜索算法找出信息基因,并将文中提出的三种模糊支持向量机算法应用到结肠癌数据的分类中,通过实验结果验证了模糊支持向量机在基因分类中的有效性。