论文部分内容阅读
表型-基因关联预测和分析在疾病治疗、食物增产等方面具有重大意义,是生物信息学中的核心问题。在人类疾病表型-基因关联研究中,由于受到法律、成本、时间等因素的制约,已知的表型-基因关联十分稀少。表型-基因关联挖掘算法的准确率很大程度上依赖于已知关联的数目,人类稀疏的关联网络在一定程度上制约了预测工作的进展。因此,人们开始着眼于跨物种的关联研究,以期对人类关联的预测起到辅助作用,通过发现老鼠网络中的模式,进而在人类关联分析中做深入研究。 鉴于此,本文以老鼠的表型-基因关联挖掘为研究对象,针对传统单基因网络挖掘存在的信息利用不充分、拓扑结构丢失等问题,提出将表型、基因和表型-基因关联三个网络集成为一个异质网络,以充分保留各网络中的结构信息。通过对老鼠网络的统计和分析,提出老鼠网络中的循环二部图模式,并验证了该模式在老鼠网络中的高覆盖度。基于循环二部图模式,本文提出双向随机游走算法加以解决。最后,论文在老鼠的网络数据上对双向随机游走算法进行了实验分析,验证了算法的有效性。