论文部分内容阅读
基因芯片(微阵列)技术在基因研究领域得到广泛应用的同时,其芯片图像分析和数据提取技术日益完善带来了微阵列实验数据的爆炸式增长。由于微阵列数据具有数据量庞大,观测数与样本量相差悬殊,缺失值繁多等特点,许多传统的统计学方法根本无法处理或者分析效果极差,这带来了研究者们对新方法的广泛尝试。早期人们主要以聚类算法探索完全未知的基因表达模式,其部分研究结果已经得到了肯定。随着基因分类的逐步明朗,需要更为有效的算法,对这些信息加以利用,准确、高效地预测未知基因的功能。因此,以可靠的生物学实验结果作为先验信息的有监督算法(supervised algorithm)便以其独特的优势成为微阵列实验数据分析研究的新热点。其中,统计学习理论中最年轻的分支——支持向量机(SVMs,support vector machines)作为一种最新的有监督算法,具有选取相似性函数的灵活性、处理大数据集时解决方案的稀少性、处理高维特征空间的能力,以及识别异常值的能力等好的特性,使其在基因表达谱数据分析方面颇具吸引力。但作为一门机器学习的新技术SVMs算法本身对于芯片研究者来讲了解甚少,另外,关于如何针对基因表达谱数据的特点进行有效地SVMs分析更是鲜有文献报道,这为芯片实验者、生物工作者,带来了数据分析上极大的不足,使我们虽然获得了宝贵的一手资料,却有可能因为算法的缺陷而与信息失之交臂。 本文在介绍微阵列数据分析现状的基础上,详细描述了支持向量机的算法原理,针对基因表达谱数据集的特点有针对性地提出了SVMs的算法设置和训练过程;基于MIPS提供的基因表达公共数据库(MYGD),重点阐述了如何实现针对基因表达谱数据的完整的SVMs算法流程;并对SVMs算法从训练精度和训练速度两方面进行了改进,应用于基因表达谱数据分析之中;在文章的结尾部分列出了实验比较所得出的主要结果,以及相关问题的讨论;并对尚待探讨的问题和即将展开的研究工作进行了展望。基因表达谱数据除了具有其特殊性外,也符合数据的一般统计分析过程。因此,本文从数据集的整理入手,详细介绍并比较了多种基因表达谱数据缺失值的填充方法,包括:k-近邻法(KNN),类均值法,列均值法等;数据的归一化方法;不同核函数的SVMs方法,包括:基因表达向量间的简单线性核函数、多项式核函数和径向基核函数;以及行之有效的用于解决基因表达谱数据分类问题的SVMs软件实现方法,包括:数据格式的变换、数据矩阵的转变、模型参数的选取以及模型的确定、优化等,并提供了部分自行开发的解决程序;另外,针对基因表达谱数据量大,结构复杂,新数据集与原有数据集之间具有承接性等特点,介绍并在基因表达谱数据的处理中应用了两种SVMs的改进算法:硕士研究生毕业论文摘要SvM增量学习算法SISVM和支持向量机与最近邻分类结合算法SVM~KNNO 通过实验比较,主要结论有:一、KNN法与类均值法的填充效果较其它方法要好,两者的填充效果无统计学差异,可根据数据集和所采取算法的具体情况任选其一;二、与其它SVMs核函数相比较,在利用基因表达谱数据识别相同功能类中的基因问题中,径向基核函数SVM和高阶多项式核函数SVM效果较好;三、本文所建立的SVMs分析流程简单、易操作,与建立在相同数据集上的目前较为流行的SVMs算法流程相比,模型的训练速度和预测精度相当,甚至更为高效;四、SVM.KNN能在一定程度上提高模型训练的精度,而sISVM能在不损失精度的伺时较好地提高模型对增量样本集的训练速度。综上所述,SVMs作为处理微阵列实验数据的新工具之一,有着较好的理论基础和极强的生命力,其本身及其改进算法必将在更广阔的基因研究领域中发挥更大的作用,为人类从基因层面上认识和解决长期困扰自身的疾病作出贡献。