支持向量机在微阵列基因表达谱数据分类中的应用

被引量 : 2次 | 上传用户:emma880222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片(微阵列)技术在基因研究领域得到广泛应用的同时,其芯片图像分析和数据提取技术日益完善带来了微阵列实验数据的爆炸式增长。由于微阵列数据具有数据量庞大,观测数与样本量相差悬殊,缺失值繁多等特点,许多传统的统计学方法根本无法处理或者分析效果极差,这带来了研究者们对新方法的广泛尝试。早期人们主要以聚类算法探索完全未知的基因表达模式,其部分研究结果已经得到了肯定。随着基因分类的逐步明朗,需要更为有效的算法,对这些信息加以利用,准确、高效地预测未知基因的功能。因此,以可靠的生物学实验结果作为先验信息的有监督算法(supervised algorithm)便以其独特的优势成为微阵列实验数据分析研究的新热点。其中,统计学习理论中最年轻的分支——支持向量机(SVMs,support vector machines)作为一种最新的有监督算法,具有选取相似性函数的灵活性、处理大数据集时解决方案的稀少性、处理高维特征空间的能力,以及识别异常值的能力等好的特性,使其在基因表达谱数据分析方面颇具吸引力。但作为一门机器学习的新技术SVMs算法本身对于芯片研究者来讲了解甚少,另外,关于如何针对基因表达谱数据的特点进行有效地SVMs分析更是鲜有文献报道,这为芯片实验者、生物工作者,带来了数据分析上极大的不足,使我们虽然获得了宝贵的一手资料,却有可能因为算法的缺陷而与信息失之交臂。 本文在介绍微阵列数据分析现状的基础上,详细描述了支持向量机的算法原理,针对基因表达谱数据集的特点有针对性地提出了SVMs的算法设置和训练过程;基于MIPS提供的基因表达公共数据库(MYGD),重点阐述了如何实现针对基因表达谱数据的完整的SVMs算法流程;并对SVMs算法从训练精度和训练速度两方面进行了改进,应用于基因表达谱数据分析之中;在文章的结尾部分列出了实验比较所得出的主要结果,以及相关问题的讨论;并对尚待探讨的问题和即将展开的研究工作进行了展望。基因表达谱数据除了具有其特殊性外,也符合数据的一般统计分析过程。因此,本文从数据集的整理入手,详细介绍并比较了多种基因表达谱数据缺失值的填充方法,包括:k-近邻法(KNN),类均值法,列均值法等;数据的归一化方法;不同核函数的SVMs方法,包括:基因表达向量间的简单线性核函数、多项式核函数和径向基核函数;以及行之有效的用于解决基因表达谱数据分类问题的SVMs软件实现方法,包括:数据格式的变换、数据矩阵的转变、模型参数的选取以及模型的确定、优化等,并提供了部分自行开发的解决程序;另外,针对基因表达谱数据量大,结构复杂,新数据集与原有数据集之间具有承接性等特点,介绍并在基因表达谱数据的处理中应用了两种SVMs的改进算法:硕士研究生毕业论文摘要SvM增量学习算法SISVM和支持向量机与最近邻分类结合算法SVM~KNNO 通过实验比较,主要结论有:一、KNN法与类均值法的填充效果较其它方法要好,两者的填充效果无统计学差异,可根据数据集和所采取算法的具体情况任选其一;二、与其它SVMs核函数相比较,在利用基因表达谱数据识别相同功能类中的基因问题中,径向基核函数SVM和高阶多项式核函数SVM效果较好;三、本文所建立的SVMs分析流程简单、易操作,与建立在相同数据集上的目前较为流行的SVMs算法流程相比,模型的训练速度和预测精度相当,甚至更为高效;四、SVM.KNN能在一定程度上提高模型训练的精度,而sISVM能在不损失精度的伺时较好地提高模型对增量样本集的训练速度。综上所述,SVMs作为处理微阵列实验数据的新工具之一,有着较好的理论基础和极强的生命力,其本身及其改进算法必将在更广阔的基因研究领域中发挥更大的作用,为人类从基因层面上认识和解决长期困扰自身的疾病作出贡献。
其他文献
Rh血型不合是我国新生儿溶血病的主要原因之一,其病情往往较重甚至出现胎儿水肿,胎死宫内。本综述主要探讨Rh阴性血型孕妇的孕期管理、妊娠结局及其影响因素。对Rh阴性孕妇进
盆地地下水动力场的形成演化与油气运移、聚集关系密切。由多个水动力体系组成的松辽盆地地下水动力场的形成与演化在平面上具有明显的不对称性,总体上盆地北部为大气水下渗
在青海省同仁县隆务峡南段的二叠纪地层中首次发现了北西—南东向分布的镁铁质—超镁铁质岩带,命名为隆务峡镁铁质—超镁铁质岩带。该岩带的岩石组合包括纯橄岩、辉石橄榄岩
一个拥有绝世秘方的普通糖号,竟让两代人拼死争夺阴谋迭出;一个继承秘方的普通青年,竟成为多方势力的争夺对象。秘方带来了无上的荣耀与功勋,更带来了无尽的苦难与悲痛。一个
为敛不义之财,黑社会"一姐"巧设"送子观音"网站;为求传宗接代,年近六旬的"土财主"金屋藏娇暗结珠胎;为筹巨额药费,走投无路的农村妇女甘愿成为"代孕母亲"却不幸踏上了不归路
分析了互联网舆情研究的现状,给出互联网舆情分析的基本思路与方法,说明了其中涉及到的几个关键技术问题。基于该思路与技术,作者给出互联网舆情研判平台构建的思路与实现,对
<正>王跃文:当代作家,曾有过政府工作经历。1989年开始文学创作,发表中短篇小说若干,曾获湖南省青年文学奖。从2001年10月起,专职写小说。现服务于湖南省作家协会。2010年入
本课题针对近年来城市广场建设中出现的诸多问题,试图从研究广场游人的数量变化规律和行为特点入手,为城市广场的人性化规划设计提供参考依据。 本课题以武汉市洪山广场为研
他幼年随母入狱,亲眼目睹了母亲的惨死;他无家可归,过了三年颠沛流离的流浪生活;他立志报国,却将短暂的人生定格在战火纷飞的战场上……她远赴苏联留学,不幸身陷纳粹集中营,
"棋仙"与"棋圣"的旷世对决,竟让一向风平浪静的弹丸小岛风起云涌:大宋天子微服赴约却为何屡遭黑衣人的追杀?忠心耿耿的三关副帅为何摇身一变成为敌国的卧底?身份显赫的公主为