论文部分内容阅读
许多疾病,如糖尿病、癌症、心血管疾病等都与基因有密切的关系,不管是在发达国家还是发展中国家,这些疾病都越来越流行。如何阐述人类遗传疾病和基因之间的关系逐渐成为了当今系统生物学中的一个重要而新兴的话题。研究表明,导致同一种疾病或者表型相似的疾病的基因,在基因的相互作用网络中更趋于产生相互作用。而由于蛋白质是由基因编码而成的,因此可以将基因的作用关系对应到蛋白质的作用关系上。因此,大量的疾病基因预测方法开始基于蛋白质相互作用网络(protein-protein interaction network,PPI)来进行研究。但是由于某些蛋白质的相互作用关系不明确从而导致蛋白质互作网络并不能完整的描述蛋白质的关联关系,蛋白质互相作用网络的数据不完整性是造成预测准确度不能进一步提高的重要原因之一。为了克服这一缺陷,本文根据引入了基因本体论数据、表型相似性数据和基因-表型关系数据对PPI网络和随机游走算法进行补充,提高随机游走算法在蛋白质互作网络中的排序性能。首先,利用基本本体论数据进行语义相似性计算并对PPI网络进行数据补充;然后,基于基因和表型对应关系和表型相似性网络生成一个新的异质网络,在该异质网络中以疾病的已知致病基因作为种子节点游走,游走结束后,根据对基因排序情况选择若干种子基因。最后,以已知致病基因和这几个候选种子基因作为种子节点,并且以第二步中的游走结果作为对应种子节点的初始权重在优化后的蛋白质相互作用网络中进行二次随机游走从而得到最终预测结果。该方法本质上是通过引入其他生物信息学数据对蛋白质互作网络进行补充从而克服数据不完整性的问题。综上所述,本研究提出了基于基因本体数据优化的蛋白质相互作用网络进行随机游走的方法,并且根据基因-表型关系网络来设置随机游走的中子节点的初始权重。通过引入基因本体论数据和基因-表型关系来补充PPI网络中关联较弱的关系,最终提高预测效果。