论文部分内容阅读
虽然人类基因组计划已经完成并取得了巨大成功,但是遗传疾病致病基因的预测是仍然人类健康领域面临的重大挑战之一。寻找遗传疾病的致病基因在改善医疗护理和理解基因功能等方面具有重大的意义。 系统生物学的研究表明,很多表现型相似的疾病是由功能相关或者相互作用比较紧密的蛋白质导致的,这一特性叫做人类遗传疾病的模块化性质。基于这一性质很多生物学家提出了利用蛋白质相互作用网络,疾病相似性网络和疾病-基因关系网络进行疾病致病基因预测的算法,但是这些算法的时间复杂度都比较高。 基于基因功能一致性和其在蛋白质相互作用网络中的拓扑属性,本文提出了一种基于随机游走思想的全局网络距离分析算法来预测候选基因。它是一种近似计算 PageRank向量的算法,可以在线性时间内完成。通过结合人类蛋白质相互作用和疾病表现型相似性数据,每一疾病可以得到一个与之对应的PageRank向量。向量中每一个元素值代表与之对应的候选基因的得分大小,并根据得分结果进行排序,从而达到预测致病基因的目的。实验结果表明该算法在算法效率和预测结果的准确性上都有不错的表现。