论文部分内容阅读
生物科学与计算机科学是目前发展最迅速的两大学科,而作为这两大学科的交叉产物—生物信息学在基因组研究中发挥了重要的作用,基因芯片是其中的一个崭新的研究领域。随着基因芯片技术的飞速发展,通过对肿瘤特征基因的选择来对肿瘤进行分类的技术得到了广泛的应用。但是基因数据中往往有大量冗余的无关基因信息,这些制约了从基因数据中得到有价值的分类信息。这些冗余的无关信息不但会增加数据处理的复杂度,同时也会降低所获取信息的质量。数据挖掘中的特征选择不仅可以去除基因数据中冗余的无关的基因信息,提高原始数据的质量,使得数据挖掘可以从基因数据中得到更有价值的信息,同时大大降低了数据挖掘的计算成本和获取冗余信息所耗费的成本。建立在统计学习理论的VC维理论和结构风险最小原理基础上的支持向量机(Support Vector Machines SVM),根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的泛化能力(Generalization Ability)。SVM凭借其具有良好的泛化能力和能得到最优解等优点,越来越受到研究者的重视,以SVM为中心的应用也开始多起来。本文将SVM作为基本分类器。本文的工作主要有(一)、对传统的t检验方法进行改进,提出了mts特征选择方法。我们的mts方法分成三个步骤来获取分类能力高的基因:第一步,为每一个基因计算一个得分;第二步,所有基因根据自己的得分按从大到小的顺序排列;第三步,选取得分高的部分基因作为下一步操作输入数据。该方法不但改进了传统的t检验方法只能处理两类问题的不足,而且避免了将得分为零但又具有良好分类能力的基因舍弃。(二)、结合mts方法和主成份分析方法提出了一种混合式特征选择方法mts-pca。在三个典型基因数据集(SRBCT数据集、急性白血病数据集和子宫瘤数据集)上进行实验,通过分析和比较实验结果得出,该方法具有一定的优势,并且在医学诊断领域中体现了良好的应用性。(三)、mts-pca方法与常用特征选择方法CS(class-separability)和Fisher-ratio特征选择方法的比较实验,实验结果同样显示了我们提出的方法的优越性。