论文部分内容阅读
随着生物科学技术和生物信息学的发展,DNA微阵列实验已成为目前基因表达分析研究中最重要的工具之一。通过DNA微阵列实验,成千上万个基因的表达水平可以同时检测,产生了高通量的基因表达数据,从而为基因表达数据分析提供了数据基础。怎样对这些海量的基因表达数据进行分析并发掘其中隐藏的信息,是当今生物信息学的一个研究热点。双聚类方法是基因表达数据分析中一种新兴且强大的无监督学习方法,它解决了传统聚类方法只能在基因表达数据集的基因或条件方向上进行聚类的问题,克服了其不能发掘数据中局部信息的缺陷。然而,如何选择合适的相似性度量标准对双聚类进行评价,并应用恰当的有效算法来进行搜索成为了亟需考虑的问题。基于对目前基因表达数据双聚类方法研究现状的归纳总结,本文主要从以下方面来对其展开研究:(1)基因表达双聚类模型和得分模式;(2)基因表达双聚类采用的有效算法。针对相应的问题分别提出相应的改进思路,主要有以下工作和成果。1.分析并总结了目前基因表达数据双聚类方法研究中的主要问题和现有方法的优缺点。2.基于CPB算法提出在数据集全局范围内检测高相关双聚类结果的算法——改进的相关双聚类算法ICBA,该算法首先随机生成Seed基因集来初始化候选双聚类,然后分别用皮尔逊相关系数和平均绝对误差对基因集和条件集交替优化。最后,通过计算双聚类之间的重叠度来过滤结果。3.通过对MIB算法的改进,提出一种用互信息度量基因表达谱之间相似性的双聚类方法——BWMI。该方法采用核密度估计法来计算表达谱之间的互信息,基于互信息选择一组seed基因来初始化候选双聚类。之后采用贪婪的方法对候选双聚类进行优化,其中采用基因表达谱之间的互信息来作为基因间的相似性度量标准对基因集进行优化。而对条件集的优化应用另一种度量标准——平均绝对误差,最后得到同时包含线性关系和非线性关系的双聚类结果。4.将所提出的ICBA算法在酵母菌代谢周期表达数据集与拟南芥细胞周期表达数据集上,将BWMI算法在酵母菌代谢周期表达数据集与人类B细胞淋巴瘤表达数据集上进行实验。用Gene Ontology功能富集程度、共同转录因子绑定位点和启动子区域共同motif等生物学标准对双聚类结果进行了评价,并和一些经典的双聚类算法进行了比较,结果证明了所得双聚类结果的生物学意义和算法的有效性。