论文部分内容阅读
如何从蛋白质互作用网络中挖掘出有效的蛋白质功能模块具有非常重要的生物意义。因此本文针对常规聚类算法的一些弊端做出了改进,提出新的自适应聚类算法。而利用生物信息学找到生物数据之间的联系,从而进行疾病基因预测也是非常具有前景的研究工作。本文将新算法应用到人类蛋白质网络,完成疾病基因预测工作。主要工作内容如下:(1)模块度是衡量复杂网络模块划分优劣的标准,但目前使用最为广泛的NG(Newman-Girvan)模块度却存在分辨率限制的弊端,因此本文引入密度模块化方法来克服NG模块度量存在的缺陷。而为了得到更优的模块结构,本文通过深入分析蛋白质互作用网络模块合并前后密度模块度的增益的变化,定义了节点的内部关联紧密度和外部关联紧密度,提出基于关联紧密度的蛋白质互作用网络功能模块挖掘算法CAD(Closely Associated Degree)。CAD算法使得蛋白质互作用网络功能模块的划分始终朝网络密度模块度不断增加的方向快速演化,从而有效的挖掘出蛋白质互作用网络的功能模块。实验结果表明,基于关联紧密度的算法CAD所挖掘的蛋白质功能模块具有较高的精度,能够有效地识别蛋白质互作用网络中具有生物意义的蛋白质功能模块。(2)目前已发现,疾病的产生也是由生物分子之间(特别是蛋白质分子)错综复杂的相互作用关系构成的。而利用生物信息学找到生物数据之间的联系,从而进行疾病基因预测也是非常具有前景同时兼具挑战性的研究工作。由前面CAD算法应用到酵母蛋白质网络上的结果所进行的分析研究表明,CAD算法对于蛋白质网络的挖掘相对于其他算法具有明显更高的准确性和有效性,因此,将CAD算法应用到人类蛋白质网络进行疾病基因预测得到的预测基因也应具有一定准确率。本文将CAD算法应用于人类蛋白质相互作用网络进行挖掘,完成了乳腺癌疾病相关基因的预测工作,最终得到20个预测基因。