论文部分内容阅读
现阶段,基因测序技术主要基于高通量测序,其技术不断成熟的同时基因数据也大量产生。人类对基因的研究也不再集中于基因数据的获取上,重心开始逐渐偏移,着重探讨基因的功能及基因的多样性。当前面临的主要挑战在于解释和分析基因测序产生的大量数据,尝试从这些大量基因数据中挖掘出潜在的规律,为人类带来福音。癌症,又被称为恶性肿瘤,目前是对人类健康最大的威胁之一。利用基因技术进行癌症预防及治疗将会成为未来癌症治疗的重大突破点。利用生物先验知识,分析一组具有相同功能的基因(基因集)在不同表现型下的差异性的方法渐成为当前的主流方法,即基因富集分析方法。本文提出了一种基于拓扑势模型的基因富集分析方法。该方法将单个基因看作一个表达势场,并且利用拓扑势模型量化此表达势场的强度。基因表达势场的强度主要取决于两个方面:基因表达值的高低以及基因之间调控关联程度的强弱。基因的表达值越高,并且与其他基因之间的调控关系越强,则基因的表达势场越强。反之则其表达势场越弱。可以将传统的基因富集分析方法分为两个大类:基于基因表达值的分析方法以及基于基因间相互关系的分析方法。由于基因之间存在调控关系,因此可以将人体的所有基因看成一种调控网络,基于此调控网络,可以将基于基因表达值的调控方法称为“点方法”,将基于基因间相互关系的方法称为“边方法”。本文提出的拓扑势模型可以看作是“点方法”与“边方法”的结合。在对模型的分析上,使用了三组肠癌数据,并将拓扑势模型与当前主流的算法进行了比较,实验结果表明拓扑势模型比之其他方法具有更优的性能。同时,本文还将人体基因调控网络HTRN引入到了拓扑势模型,并给出了基于此网络的拓扑势模型具体的计算方法。HTRN网络是DNA元件百科全书项目的一部分,引入此网络使得拓扑势模型只需考虑网络中存在调控关系的基因对,如此使得模型在生物上更具解释性。在对引入HTRN网络的拓扑势模型性能的分析上,本文用到了一种新的分析方法,该方法要以大量的实验数据为依托,利用不同数据目标基因集的p-value以及p-value排序位置为衡量标准对算法性能进行评估。在不同算法的比对分析中,可以看到引入大网络的拓扑势分析模型具有更优的性能。换句话说,其在基因富集分析方面具有更加优越的竞争力。