基于关联紧密度的蛋白质网络挖掘算法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:sherry77677
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何从蛋白质互作用网络中挖掘出有效的蛋白质功能模块具有非常重要的生物意义。因此本文针对常规聚类算法的一些弊端做出了改进,提出新的自适应聚类算法。而利用生物信息学找到生物数据之间的联系,从而进行疾病基因预测也是非常具有前景的研究工作。本文将新算法应用到人类蛋白质网络,完成疾病基因预测工作。主要工作内容如下:(1)模块度是衡量复杂网络模块划分优劣的标准,但目前使用最为广泛的NG(Newman-Girvan)模块度却存在分辨率限制的弊端,因此本文引入密度模块化方法来克服NG模块度量存在的缺陷。而为了得到更优的模块结构,本文通过深入分析蛋白质互作用网络模块合并前后密度模块度的增益的变化,定义了节点的内部关联紧密度和外部关联紧密度,提出基于关联紧密度的蛋白质互作用网络功能模块挖掘算法CAD(Closely Associated Degree)。CAD算法使得蛋白质互作用网络功能模块的划分始终朝网络密度模块度不断增加的方向快速演化,从而有效的挖掘出蛋白质互作用网络的功能模块。实验结果表明,基于关联紧密度的算法CAD所挖掘的蛋白质功能模块具有较高的精度,能够有效地识别蛋白质互作用网络中具有生物意义的蛋白质功能模块。(2)目前已发现,疾病的产生也是由生物分子之间(特别是蛋白质分子)错综复杂的相互作用关系构成的。而利用生物信息学找到生物数据之间的联系,从而进行疾病基因预测也是非常具有前景同时兼具挑战性的研究工作。由前面CAD算法应用到酵母蛋白质网络上的结果所进行的分析研究表明,CAD算法对于蛋白质网络的挖掘相对于其他算法具有明显更高的准确性和有效性,因此,将CAD算法应用到人类蛋白质网络进行疾病基因预测得到的预测基因也应具有一定准确率。本文将CAD算法应用于人类蛋白质相互作用网络进行挖掘,完成了乳腺癌疾病相关基因的预测工作,最终得到20个预测基因。
其他文献
随着网络规模和复杂性的增加,为了向网络用户提供既可靠又经济的信息传输服务,网络管理已成为现代网络发展中不可缺少的一部分。 ISO制定的CMIS/CMIP和IAB制定的SNMP是当前最
通过研究发现,挖掘相联规则算法普遍的问题是潜在频繁项集规模过大,每趟扫描没有减少数据规模.该文提出了多段支持度算法.通过实验发现,当项数很多时所生成的候选项集不能完
该文在分析了目前软件领域与GIS研究相关有关成果和GIS系统特点的基础上,设计并 实现了GIS对象组件模型四个粒度层次的对象组件:基本对象组件、基本GIS框架、GISAgent和GIS应
学位
该文重点介绍了金融业务综合服务系统建立的背景,系统的整体结构,以及基于CTI技术电话证券委托交易业务的实现.论文的主要内容包括: 1.项目背景介绍 2.系统的整体结构介绍 3.
该文首先阐述了企业信息化的现状,介绍了工作流技术的概念、国内外研究现状及存在的问题.论文重点工作是对工作流建模方法、工作流管理系统的体系结构以及工作流若干实现技术
学位
部分-整体语义联系(Part-Whole semantic relationship)是OODB中对象之间常见的相互联系.M.Halper等人曾将OODB中的部分-整体语义模型组织为四个特征域,然而该模型不能确切的
该文讨论了在企业网络中,包括提供公共服务的ISP网络、企业内部网等网络安全的实现.该文首先分析了网络安全工作对于企业管理和经济建设的重要意义,它所面临的种种威胁,企业
自1986年网络队列系统NQS面世以来,作业管理系统取得了长足的发展。国外一些大型的研究机构和公司都将作业管理系统作为提高生产效率和资源利用率的一项重要技术保证,并面向实