基因表达数据聚类分析及其应用研究

被引量 : 0次 | 上传用户:yww74
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近代分子生物学实验技术和计算机技术的迅猛发展,以及人类基因组(HGP)的顺利完成,标志着现代生命科学研究已经进入了后基因组时代,研究者把关心的焦点由结构基因组学转向了功能基因组学。基因芯片(gene chip,microarray)作为一种新型的高通量的检测技术方法,可以同时测量成千上万个基因的表达水平,已成为“后基因组时代”研究基因与基因间相互作用的一个强有力的工具。 如何对该技术产生的海量实验数据进行准确而合理地管理和分析已成为是否能有效应用该项技术的主要问题,并决定着当前生物信息学的重要研究内容和主要研究方向。然而,就目前来说基因芯片技术所遇到的挑战并不在基因表达芯片本身,而是在于发展实验设计方法以对基因表达数据进行时空的全面探索与分析,最大的挑战则是数据分析与挖掘。本课题主要就基因表达型芯片的数据分析,特别是聚类分析技术在微阵列基因表达数据分析和处理这一环节展开并进行研究。 本课题的主要研究内容为: 1.采用聚类有效性的思想来确定FCM(Fuzzy C-Means,简称FCM)算法中的参数c。通过分析目前存在的一些聚类有效性函数的不足,采用Xie-Beni指标作为聚类有效性函数,解决了参数c如何确定的问题,给出了一个根据聚类有效性函数来自动给出参数c的算法,在模拟数据和真实数据上的应用均取得了较好结果。 2.对FCM算法中加权指数m的取值进行了探索性的研究。构造了一个评价函数来对m的不同取值所对应的结果进行评价并以此来选取最优的m值,通过实验验证了其可行性。 3.将遗传算法与K-均值聚类算法相结合对微阵列基因表达数据进行聚类分析。主要从四个方面对该混合算法进行改进。首先,我们使用了把聚类中心作为染色体的浮点数编码方式,这样既能使基因表达数据集的编码过程得到简化,又能减少整个算法的运算量;第二方面,为了保证每一代的进化过程中当前最优个体不会被遗传操作所破坏,我们在进行选择时采用了最优保存策略与比例法相结合的混合选择算子;第三方面,在交叉操作中,为了减少无意义个体的产生,先对配对个体进行了基于最短距离的基因匹配,然后再运用算术交叉来增强遗传算法的局部搜索能力;最后,为了提高收敛速度,我们在每一代遗传操作结束之前对要进入下一代的群体进行了优化,使得搜索最优解的速度明显加快。最后将该混合算法运用于公开的白血病基因表达数据和结肠基因表达数据,取得了较好的实验结果。4.设计并实现了GeneCluster芯片数据聚类分析系统。主要实现了K-means算法、FCM算法、GKA算法。该系统具有良好的用户界面、功能完善、操作简单、易维护、成本低等优点,是将聚类算法应用于生物信息学方面的有益探索。
其他文献
作为一种共享异构数据源的途径,数据集成系统有着广泛的应用需求。模式映射是数据集成系统的重要组成,通常由视图定义(查询)语言表示,它描述了不同模式之间的数据是如何转换的,是
随着Internet的迅速发展和普及,用户要求更广泛的、更普遍的资源共享。P2P网络具有分布式的特性并且能够充分利用资源,成为业界研究与关注的焦点。但是,P2P网络缺乏集中控制的特
本文重点讨论如何在流数据挖掘的基础上设计和实现为用户提供高质量推荐服务的个性化推荐系统。通过使用流数据上频繁模式挖掘方法处理 Web 流数据,个性化推荐系统可以更及时
脑电(EEG)信号分析系统是信号与系统,计算机技术和生物医学技术等多学科交叉的研究领域,被广泛应用于癫痫诊断,神经监护,麻醉深度等临床诊疗中。但是由于对脑电信号分析的准确性
信息时代的到来,信息数据存储的需求与日俱增。人们对保护硬盘数据免受侵害的关注程度也越来越高。硬盘数据加密是当前保护硬盘数据的主要趋势和手段。软件加密方法虽然安装
时间序列分析指对一定时间段内的时间序列数据的特征提取和建模,在宏观经济学、天文学、海洋学、医学等学科中有着广泛地应用。随着大数据时代的到来,随着计算机技术在金融、
近些年来,数据流管理己成为数据库领域的一类热点研究问题,并得到了广泛的关注。随着数据流查询处理等技术的不断发展,数据流在工业控制、环境检测、金融分析和交通管理等领域正
企业信息管理系统的数据权限细化,给企业信息管理系统带来了安全方面和权限管理方面的挑战。基于上述问题,论文提出了基于RBAC的数据对象权限模型。  数据对象权限模型将数据
近年来,电子商务发展迅速,由于其能够节约商务交易成本、提高商务交易的效率,越来越受到人们的关注。但是,在商务交易中可能会存在信息截获和窃取、篡改、假冒、恶意破坏、交易抵
随着移动通信技术的迅速发展,特别是基于IEEE 802.11无线网络技术应用的普及,如何确保向用户提供适合于当时环境的信息,并据此做出决策和自动提供相应的响应与服务,是迫切需要解