基因表达数据的聚类算法设计与分析

被引量 : 0次 | 上传用户:zhaiyiyang9708
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA的微阵列技术(microarray)使得在重要的生物过程中同时检测大量的基因表达水平变得可能。揭示隐藏在基因表达数据中的基因模式可以提供一个可以加深对功能性基因的理解的重要机会。但是,巨大的基因数目和生物网络的复杂性增加了理解和解释这些基因的挑战。而解决这个挑战的第一步工作就是利用聚类技术,因为它是从底层的数据中揭示自然结构和识别有意义的模式的数据过程中的重要步骤。本文的工作就是设计并研究针对基因表达数据的有效的聚类算法。本文的主要工作为两部分内容:第一部分工作中,本文提出一个基于最小生成树的聚类算法,叫做基于最小生成树的不定划分的聚类算法(a MST-based Uncertain Partition clustering algorithm,MUP)。它能够快速有效地聚类分析基因表达数据。MUP算法的最大特点是:1,与其他基于最小生成树的算法的不同之处是不相容边的确定方法。MUP算法采用两个连续的步骤来完成:滑动窗口来识别当前簇的潜在的不相容边和利用目标函数来确定真正的将被剪断的不相容边。2,在没有先验知识的情况下,能够自动确定簇的数量。3,在具有噪声的背景中仍然能够发现有意义的基因模式。在用MUP算法分别分析两个公开的且流行的基因表达数据集,Wen的数据集和Iyer的数据集时,得到了很好的聚类结果。这说明MUP算法对大规模的基因表达数据是有效的。第二部分工作中,本文研究多视图的正交子空间聚类算法在应用基因表达数据时的聚类质量。正交子空间聚类算法已经成功地应用在其他一些领域,比如文本聚类,图像数据聚类等。理论上它可以用于分析基因表达数据,所以本文采用另一个公开的且流行的基因表达数据,Cho的数据集,来研究分析正交子空间聚类算法在基因表达数据集上的聚类效果和意义。通过实验分析,本文得出结论,正交子空间算法也能够从多个侧面很好的分析基因表达数据集。本文中的MUP算法和多视图的正交子空间聚类算法都能够有效的分析基因表达数据,它们为基因表达数据的研究和下一步的其他工作提供了有力的支持。
其他文献
多分支水平井技术作为一种高效的采油手段,因其能够大幅度提高单井产能、抑制锥进及提高采收率,所以被广泛地应用于低渗透油藏、稠油油藏、薄层油藏以及多层油藏。而针对多分
研究目的:本研究以《国民体质评价标准研究》为依据,通过对镇江市成人2000年和2005年体质状况的监测,全面、科学地跟踪、分析和总结2000年和2005年二个测试周期镇江市成人的
槲皮素(Quercetin,QT,3,3’,4’,5,7-五羟基黄酮)是一种天然的黄酮类化合物,具有抗癌防癌、抗自由基、抗贫血、抗炎、抗过敏等多种生物活性及药理作用。但由于槲皮素亲水性及亲
改革开放以来,以出口为导向的中国下游行业快速发展引致了成套设备的大量进口。自2005年装备制造业已成中国出口主力军,但中国装备制造业进口规模也在快速增长,且占全国货物
炼油工业是我国国民经济发展中的重要基础产业,它在国民经济发展中占据着重要的地位。自建国以来我国炼油工业在国家政策扶持下已有了长足的发展。特别是近几年,由于宏观经济
结合西安市轨道交通线网规划及建设时序,针对2号线地下段占全线约80%、高架段占全线约20%,另设有车辆段和停车场各1座的线路特点,通过对架空刚性悬挂、架空柔性悬挂及接触轨3种
近年来,随着我国国民经济的快速发展,机动车的拥有数量急剧增加,随之而来的道路交通事故的数量亦呈上升趋势,严重危害到人民的生命健康及财产安全,因道路交通事故引发的损害
辽河油田自1999年开始进行分支井钻完井技术的研究,对多分支井连接处的力学完整性、水力完整性、固井水泥浆体系等进行了攻关,研制开发了DF-1型多分支井完井系统,研究水平居
近年来,随着全球气候变暖和一次能源价格的不断攀升,加上人类居住环境的逐步恶化,能效问题在全球范围内成为了人们关注的焦点。中国是世界上第二大能源消费国,占全世界能源消
目的:为临床合理使用免疫增强剂提供参考。方法:采用回顾性调查法,收集我院2011年7月-2012年6月使用免疫增强剂的住院患者病历,分析评价药物使用的合理性。结果:调查的969份