基于MFA算法的肿瘤特征基因选择方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zxcasd456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学的不断发展,大量的基因表达数据被获取,特别是肿瘤的基因表达数据。用机器学习的方法对这些数据进行分析并获得分类特征基因,有助于肿瘤早期诊断,近年来一直是生物信息学研究的热点。由于肿瘤基因表达数据的维数一般是几千甚至上万,它会影响机器学习算法的效率,甚至降低学习的效果,这就是所谓的“维数灾难”,特征选择方法可以从成千上万个基因中选择出带有较多分类信息的基因,这不但改善了学习的效率,提高了学习的精度,而且有重要的生物学意义,可以帮助人们寻找肿瘤的致病基因,从基因表达的角度解释肿瘤的成因。近年来,有学者提出了一种流形学习算法的一般性框架,并由此提出了边缘费希尔分析算法(Marginal Fisher Analysis,MFA),在分类研究中取得了良好效果。本文主要提出了一种基于流形学习的特征选择算法:MFA score+算法,并将其应用在肿瘤基因表达数据。实验选用了9种公开的肿瘤数据集,在前面8种数据集上验证改进算法的有效性,在最后一个数据集(急性白血病数据集)上进行了特征基因子集的生物意义分析。  本文取得的主要研究成果如下:  1.将MFA score算法应用于肿瘤基因表达数据。首先详细介绍了MFA特征提取算法,并且指出其适用于任何分布的训练样本,然后从它出发改造成了一种对特征进行打分的特征选择算法:MFA score。接下来简要介绍了公开的8种肿瘤基因表达数据、用于对比实验的两种特征选择算法和作为分类器的支持向量机,最后给出了实验结果。从实验结果可以看出MFA score算法明显优于Fisher score和T-test算法,它可以被用于特征基因的选取任务。  2.基于MFA score算法,提出了一种结合排除冗余的MFA score+算法。首先指出冗余基因在肿瘤基因表达数据中大量存在这一现象,说明了单特征评价算法会存在冗余基因。然后就这一问题提出了基于Pearson相关系数的排除冗余方法,并与MFA score算法结合成MFA score+算法,给出了算法的流程图。最后通过比较实验说明了此算法的分类效果优于MFA score等算法。  3.讨论了特征选择算法用于肿瘤基因表达数据分析的生物学意义,进一步说明了MFA score+算法的有效性。将MFA score+算法用于人类急性白血病的数据集。首先,介绍了最早利用机器学习方法处理的急性白血病数据集和Golub的“信噪比”方法。然后,用MFA score+算法对数据进行特征选择,结果选出了12个特征基因,分类准确率达到了100%。最后,对选出的基因子集做了生物意义分析,通过比对发现12个基因中有10个在Golub选出的50个特征基因中,其中的M23197基因在白血病免疫分型中起着重要作用,是当前用于白血病亚型分型的重要免疫标记,这表明了MFA score+算法的应用价值。
其他文献
论文主要针对分布式虚拟现实系统所存在的实时性不够、网络传输速度不足问题,从三维三角形网格简化、三维模型连续多分辩率模型生成和三维模型压缩等三个方面进行研究.(1)对
自主导航是移动机器人通过自身携带的各种传感器完成对周围环境的感知、绘制地图、确定自身位置的过程,是机器人在已知或未知环境下正常运行的核心技术。本文以基于激光雷达
强力输送带横向断裂事故会造成重大的经济损失,由该课题组研制的强力输送带预报系统能够实现输送带的在线检测.随着技术的发展和生产的应用,又有新的问题需要进一步完善.该文
该文介绍了变电站实时监控系统组态软件的设计和实现.文中首先介绍了组态的概念和软件的总体结构,然后详细介绍了软件中的两个重要数据结构--图元类库和实时数据类库的面向对
伴随着全球人口的增长,能源危机问题将变得日益严峻,ITER计划为解决全球性的能源问题提供了希望。我国于2006年加入ITER计划,从加入计划以来便开始对和平利用核能遇到的系列问题
脑机接口(Brain-Computer Interface,BCI)是一种不依赖于大脑外周神经与肌肉正常输出通道的通讯控制系统。脑机接口技术通过采集和分析大脑生物电信号,在大脑和外界建立直接交
同步定位与地图构建(SLAM)以其定位精度高和能够获得未知环境信息的特点,成为了解决机器人在未知环境中实现自主导航的关键技术。本文针对SLAM算法存在的计算量大、计算复杂
红外焦平面阵列(IRFPA)是目前最先进也是主流的红外探测器,广泛应用于各种军用和民用红外成像系统。但由于受材料提纯和器件制造工艺水平等因素所限,红外焦平面阵列普遍存在较
人工智能技术的应用性研究取得了显著的发展,故障诊断已成为人工智能最为成功的应用领域之一.该文主要研究了基于案例的诊断方法及其与人工神经网络的结合,并采用机器学习的
该课题正是根据临床诊断的要求,从一系列等间距的超声血管断层图像出发,运用数字图像处理和计算机图形学的理论与方法,完成了动脉血管表面的三维重建工作.在三维显示模块中,