论文部分内容阅读
Gene Ontology(GO)作为对基因及其蛋白质产物的功能进行系统描述的数据库,已经被广泛应用于分析基因(及其产物)间的功能相似性以及基于高通量生物学数据分析疾病相关的生物学功能通路。但是,基于GO的应用方法还存在很大的问题。本文主要包括以下三部分内容:1.揭示并去除基于GO的蛋白质间功能(语义)相似性得分的偏倚。蛋白质间的语义相似性得分已被广泛地应用于功能基因组的各种研究。但是,由于一些与疾病相关的蛋白质倾向于被广泛研究,它们倾向有较多的功能注释,而这种注释偏倚将影响基于语义相似性得分的各种应用。在本文中,我们首先分析了14种常用的基于GO的蛋白质间功能相似性得分与蛋白质注释的功能类个数之间的关系。结果显示,它们显著正相关,证明目前基于蛋白质间语义相似性得分的应用结果存在偏倚。因此,我们提出了使用幂转换对蛋白质间的相似性得分进行标准化处理的方法,并证实利用该方法可以使一些应用的结果得到改善。2.从疾病的统计相关功能中发现生物学相关功能。在研究高通量的疾病相关数据时,一种通常的做法是基于GO数据库发现富集疾病相关基因的疾病相关功能。但是,目前大部分算法找到的显著GO功能类都存在由于GO功能类间的依赖性导致的冗余问题。由于目前去除冗余的算法仅基于一些数值考虑,利用这些算法无法准确定义生物学相关的功能类。在本论文中,我们设计了GO-function算法,用于从统计相关的GO功能类中寻找生物学相关功能类。利用一套结肠癌的基因表达谱数据,我们比较了GO-function和其他四种处理冗余问题的算法。然后,利用另一套独立的结肠癌表达谱数据,我们对利用第一套结肠癌数据得到的结果进行证实。结果显示,相比其它四种算法,基于GO-function算法所找到的疾病相关功能类具有更明确的统计与生物学意义。3.识别显著富集功能类间共突变基因对的共突变功能对。癌基因组突变的复杂多样性使得我们需要利用生物学通路来对癌基因组突变谱进行研究。由于GO从宽泛到细致在不同层面上定义生物学功能,因此,基于GO功能类研究癌症过程中生物学功能的共扰动是一种合理的选择。本文提出了一种算法,寻找GO功能类间显著富集共突变基因对的非冗余功能对。基于两套癌基因组体细胞突变数据,我们分别找到了78对共突变功能对。这些功能对包含宽泛和细致的生物学功能,更精确地定义了被共同扰动的生物学功能的范围,为研究癌症的发生机制提供了新的线索。综上所述,我们提出的方法对正确利用GO分析基因间的功能相似性及疾病相关生物学通路具有基础性的重要意义。