基因表达数据的双聚类分析方法研究

被引量 : 0次 | 上传用户:zhanchuangye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物科学技术和生物信息学的发展,DNA微阵列实验已成为目前基因表达分析研究中最重要的工具之一。通过DNA微阵列实验,成千上万个基因的表达水平可以同时检测,产生了高通量的基因表达数据,从而为基因表达数据分析提供了数据基础。怎样对这些海量的基因表达数据进行分析并发掘其中隐藏的信息,是当今生物信息学的一个研究热点。双聚类方法是基因表达数据分析中一种新兴且强大的无监督学习方法,它解决了传统聚类方法只能在基因表达数据集的基因或条件方向上进行聚类的问题,克服了其不能发掘数据中局部信息的缺陷。然而,如何选择合适的相似性度量标准对双聚类进行评价,并应用恰当的有效算法来进行搜索成为了亟需考虑的问题。基于对目前基因表达数据双聚类方法研究现状的归纳总结,本文主要从以下方面来对其展开研究:(1)基因表达双聚类模型和得分模式;(2)基因表达双聚类采用的有效算法。针对相应的问题分别提出相应的改进思路,主要有以下工作和成果。1.分析并总结了目前基因表达数据双聚类方法研究中的主要问题和现有方法的优缺点。2.基于CPB算法提出在数据集全局范围内检测高相关双聚类结果的算法——改进的相关双聚类算法ICBA,该算法首先随机生成Seed基因集来初始化候选双聚类,然后分别用皮尔逊相关系数和平均绝对误差对基因集和条件集交替优化。最后,通过计算双聚类之间的重叠度来过滤结果。3.通过对MIB算法的改进,提出一种用互信息度量基因表达谱之间相似性的双聚类方法——BWMI。该方法采用核密度估计法来计算表达谱之间的互信息,基于互信息选择一组seed基因来初始化候选双聚类。之后采用贪婪的方法对候选双聚类进行优化,其中采用基因表达谱之间的互信息来作为基因间的相似性度量标准对基因集进行优化。而对条件集的优化应用另一种度量标准——平均绝对误差,最后得到同时包含线性关系和非线性关系的双聚类结果。4.将所提出的ICBA算法在酵母菌代谢周期表达数据集与拟南芥细胞周期表达数据集上,将BWMI算法在酵母菌代谢周期表达数据集与人类B细胞淋巴瘤表达数据集上进行实验。用Gene Ontology功能富集程度、共同转录因子绑定位点和启动子区域共同motif等生物学标准对双聚类结果进行了评价,并和一些经典的双聚类算法进行了比较,结果证明了所得双聚类结果的生物学意义和算法的有效性。
其他文献
同声传译现被广泛运用于国际会议、外交外事、商务谈判、新闻传媒等诸多领域。它是一种受时间严格限制、难度极高的语际转换活动,需要口译员综合协调听辨、理解、记忆、表达等
"辽南民歌"是我国辽南民间音乐文化艺术的奇葩,它是辽南人民在长期的生产生活实践中形成了口传心授,世代相传的民间音乐形式,充分表现了当地民间的人文风俗和生产生活中的所见
近年来,铁路建设工程量大且项目繁多,其中长大隧道的地质勘探一直以来都是较为复杂的工程难题。本文结合某隧道的实际应用情况,探讨了高频大地电磁测深的基本理论,介绍了近年
随着科学技术的发展,微位移定位技术已成为许多现代高科技装备的基础技术,高精度微位移定位平台系统被广泛应用于航空航天、超精密加工制造和测量、微电子、生物工程、光学工程
毛纺面料国际化的发展要求产品结构趋向轻薄化,强调面料的“轻、薄、乖、细”风格,进一步体现服装的华贵和高档,穿着的舒适、美观。毛纺厂家采用单纱织造以达到精纺面料的高支轻
第一部分高铁和低铁环境对成骨细胞生物活性影响的比较研究目的观察成骨细胞(hFOB1.19)在高铁环境、低铁环境培养后,细胞生物活性指标的变化趋势,比较两种培养环境对成骨细胞生
随着林业建设面积的不断增加,森林资源的生态效益也日渐显著。为了能够进一步完善森林资源的管理工作,避免森林火灾现象的发生,本文探究了林场森林防火存在的问题及应对策略,以期
<正> 近年以来,人们日益认识到发展新型防水材料,在城乡开发建设中具有战略意义.这不仅因为,屋漏既是造成房屋老化的主要原因之一,又是判断房屋是否老化的主要特征,而且随着
利用工业废渣为主要原料开发了一种新型路基材料用的胶结剂,分析了利用该胶结剂胶结的路基材料的强度发展机理。配制的掺有6%该胶结剂以及粉煤灰掺加量在20%以内的碎石路基材料,7
<正> 在葡萄糖生产过程中,蒸发过程需要消耗大量的能量。因此,采用合理的蒸发工艺流程与切实可行的节能措施,对于降低生产成本,提高经济效益有着重大的意义。 目前葡萄糖生产