基因表达谱数据挖掘的算法研究与实现

来源 :上海大学 | 被引量 : 0次 | 上传用户:c329619217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微阵列技术是现代生命科学领域中一项具有革命性意义的重大技术,对疾病的诊断和治疗、基因功能的研究都将产生深远的影响.通过微阵列技术,研究人员可以同时监测成千上万个基因的表达情况,并最终获得以矩阵形式记载的基因表达数据即基因表达谱,这使得对大量基因表达数据的分析成为可能.伴随着微阵列技术产生的海量数据,人们认识到只有对基因表达谱进行详尽的分析才能获得对基因的深入理解和系统认识,才能揭示基因与疾病之间的相关性、探索基因所具有的生物学功能.而以基因表达谱为对象的数据挖掘方法为解决这一问题提供了强有力的分析工具.目前,利用基因表达谱进行肿瘤诊断已成为数据挖掘算法研究的重点之一,采用的是以模式识别为目标的挖掘方法.近年来,基因表达谱数据挖掘方面的研究不断取得新的进展,但是仍有许多问题有待解决,比较突出的有以下两点:1.采用微阵列技术同时检测表达水平的基因个数p远远大于所检测的样本个数N,若直接采用标准的统计预测方法其效果并不佳;2.表达数据经常存在噪声干扰,采用基于正态分布假设的参数统计方法存在一定的风险.本文研究的目的就是要探讨上述两方面的问题.针对存在的问题,文中我们提出一种基于非参数方法的模式识别方法.该方法利用微阵列基因表达数据对人类肿瘤样本分类,但并不对微阵列数据作总体分布假设,从而大大降低了噪声对预测结果的影响.所述方法不但可以用于两总体的模式识别(例如肿瘤与正常组织)问题,而且可以用于多总体的识别(多种肿瘤类型).为检验该算法对两总体肿瘤数据及多总体数据的识别效果,文中采用了两套真实的包括不同人类肿瘤样品的表达谱数据.分类结果显示,此算法可以达到较为理想的识别效果.同时也研究了参数敏感性与算法稳定性,并讨论了降维处理方法.为了科研人员能更方便地使用该算法,我们编写了Microarray Data Mining(MDM)软件,这是一个由VC++开发的Windows程序.
其他文献
在科学、工程、管理、经济、军事等领域存在着大量的全局优化问题。许多科学与工程中的实际问题,也可以转化为本质上的全局优化问题。这些问题用传统的非线性优化方法无法有
能源的开发与利用为推动人类的文明进步起到了至关重要的作用。如今,能源的开发与利用在世界范围内还将持续增长,中国及山东省的能源消费也在逐年增加。但是,能源的开发利用具有
本文的目的是讨论一类在各种科学领域广泛存在的系统,即三维缓变系统,由于该类系统在神经生物学方面的重要地位,故其动力学性质尤显重要.文中,我们介绍了一种讨论该系统的动
多约束非线性背包问题是一类特殊而重要的整数规划问题,它可以定义为在有限整数集上极大化一个可分离非线性函数的多约束(可分离)最优化问题。由于这类问题在资源分配,工业生产
计算机仿真技术是以多种学科和理论为基础,以计算机及其软件为工具,对系统进行实验研究的理论和方法体系,仿真技术在解决科学研究、系统设计、生产控制和教学训练等方面所发
为了满足工农业生产和人民生活的需要,解决水资源时空分布不均的问题,我国兴建了许多大型泵站。江苏省内的一些泵站,由于受潮位的影响,扬程变化频繁,变化幅度较大,实现这些泵站的节
输入串联输出并联(Input-series output-parallel,ISOP)逆变器组合系统适用于高压直流输入和大电流交流输出的应用场合,其多模块串并联组合系统的特点令其可有效提高电源系统工作的可靠性,而切实体现这一优点的关键就是要实现其冗余容错运行;此外,使用多个小容量逆变器模块以ISOP拓扑组合成中大容量的并网逆变器应用于新能源发电系统中,则可以使得系统容量易于扩展、降低系统开发设计难
本文通过对荣华二采区10
目前养蜂人常用蜂群自然分蜂、人工远距离转移蜂群分蜂两种方法,这两种分蜂方法比较简单,可操作性强,但存在可控性差、跑蜂风险大、管理成本高等不利因素,在一定程度上制约了
期刊
本文首先对永磁直线无刷直流电动机的基本工作原理和结构特点进行了详细的分析和介绍,并在此基础上建立了电机的数学模型。结合永磁直线无刷直流电动机的数学模型,建立了具有位置环、速度环和电流环的永磁直线无刷直流电动机位置控制系统。其次,电机在工作过程中省略了如滑轮、丝杠等中间转换装置,导致扰动直接加在直线电机的初级上,控制系统的抗扰动能力明显变差。针对这一问题对电机的扰动力构成进行了分析,发现扰动主要来自