【摘 要】
:
随着基因微阵列技术的发展,人们对于基因表达谱数据的研究逐渐成为了生物信息学的研究热点。这些研究为我们认识和理解生命现象提供了全新的思路与方式。而近年来,机器学习凭
论文部分内容阅读
随着基因微阵列技术的发展,人们对于基因表达谱数据的研究逐渐成为了生物信息学的研究热点。这些研究为我们认识和理解生命现象提供了全新的思路与方式。而近年来,机器学习凭借其在模式识别与数据挖掘领域的出色表现,受到了生物信息学研究者的广泛关注。目前,基因表达谱数据分析已被广泛应用于疾病的预测、诊断和靶向治疗。本文利用机器学习算法,针对基因表达谱数据分析中常见的:缺失值填补,基因活动状态聚类,肿瘤样本分类等问题提出了较为有效的解决方案,并通过在不同数据集上的多次实验证明了方案的优异性能。具体地,本文主要的研究内容如下:(1)在实际的基因微阵列实验中,各种主观和客观因素通常会导致实验产生的基因表达谱数据中存在或多或少的缺失值。本文提出了一种基于集成学习思想的方法,集成了几种传统的缺失值填补算法(如:K-近邻填补,最小二乘法填补等),对数据集中的缺失值进行填补,得到了较准确的填补结果。(2)为了根据基因表达谱数据分析基因的功能以及基因在不同条件下的表达情况,研究者通常将基因表达谱数据进行聚类分析。本文提出了一种基于概率模型的基因活动状态聚类方法,该模型结合K-均值聚类与高斯混合模型对数据的分布进行描述,并取得了较好的聚类效果。(3)基于基因表达数据的疾病分类与预测一直是生物信息学的研究热点,而当数据集存在缺失值或数据不规范时,这一问题就变得十分困难。本文结合提出的缺失值填补算法和基因活动状态聚类模型,利用K近邻,支持向量机对肿瘤样本进行分类,并取得了较高的分类准确率。实验结果表明,本文提出的基因表达谱数据缺失值填补算法和基因活动状态聚类模型都具有良好的性能和可行性,并且通过肿瘤分类实验证明,我们的方法对实际的应用起到了积极的作用。
其他文献
为了降低轨道交通车辆运行时引起的环境振动,各种型式的减振轨道应用在我国城市轨道交通建设当中。在减振轨道的大面积使用的过程中,钢轨波浪性磨耗现象越来越严重,钢轨波磨
病理图像诊断是医学图像分析领域的一个重要课题。传统的人工诊断方法需要医生投入大量的时间,还容易因其主观因素影响诊断结果。为了缓解医生的压力,人们开始研究用计算机来
汽车向智能化发展的过程中产生了时延敏感密集型的车载应用,这给车联网在计算资源、存储资源和通信能力带来了挑战。本文以智能车联网为研究对象,面向车联网低时延应用需求,
双酚A(Biphenol A,BPA)早已被认定为典型的环境内分泌干扰物,它的化学结构类似己烯雌酚,具有弱雌激素、抗雌激素和抗雄激素的作用。实验室早期研究发现,BPA暴露后可影响社会
近年来,随着科技水平的迅速提高,电子产品的使用周期不断缩短,从而使得电子垃圾的产量急剧增大。废线路板作为一种典型的电子垃圾,具有高回收价值、高潜在污染性等特点,如何
工件识别与分类任务是工业生产流程中一项十分常见的工作任务,它能够把不同种类的目标工件进行正确的分类处理,也可以用于分拣出有质量缺陷的工件。现有的零件识别算法基本都
将镧系元素(Ln(Ⅲ))和锕系元素(An(Ⅲ))分离是乏燃料后处理的重要环节之一,对核能可持续发展具有重大意义。含氮配体被认为是Ln/An分离中非常具有前景的一类试剂。其中,如何修饰这些
生物组织的结构和功能性成像对于疾病的早期诊断、治疗以及医学临床监测均具有重要意义。电阻抗层析成像技术(Electrical Impedance Tomography,EIT)是一种利用介质电学敏感
由于纯电动汽车动力系统参数优化设计的优劣会直接影响汽车的动力性能与经济性能,因此有必要对动力系统参数进行优化研究。经过优化后的参数,使动力系统的驱动电机,动力电池
Web事件驱动特性以及页面结构、内容的动态性,给Web应用测试带来了极大的挑战。DOM事件依赖图可有效辅助测试人员和开发人员理解、调试并修复Web应用,对测试有着重要的作用。如何针对Web应用特性分析其DOM事件依赖关系及构建DOM事件依赖图是Web应用测试的重要研究内容。在现代Web应用中,JavaScript通过对DOM元素的动态操作,实现Web应用功能,但同时这些操作很可能引发DOM事件依赖