蛋白质网络模块结构识别算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:redblackzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
识别蛋白质相互作用网络中的模块结构,是理解细胞功能的组织结构以及动态性的第一步。分析蛋白质网络的拓扑特性,以其模块性为基础,从蛋白质网络中识别有意义的蛋白质复合体和功能模块、注释未知的蛋白质功能、为已知功能的蛋白质预测新功能正成为当前国内外研究的热点问题。本文基于蛋白质网络的拓扑特性,研究了有效识别蛋白质复合体和功能模块的算法。进一步,将模块结构识别算法研究推广到复杂网络中。主要研究工作包括:基于MCODE(Molecular Complex Detection)和GN(Girvan and Newman)算法,提出一种识别蛋白质复合体的新算法。分析了MCODE和GN算法的优缺点,根据蛋白质网络的拓扑结构,提出一种组合MCODE和GN的新算法。将算法应用于酵母蛋白质网络中,它可以快速地识别更稠密的模块,而且识别的蛋白质复合体与MIPS(Munich Information Center for Protein Sequences)中已知复合体具有高的重合率。这说明新算法可以识别更多具有生物意义的蛋白质复合体。对蛋白质复合体结构的深入研究发现,它主要由一个核和一些附件构成。根据复合体核和附件所具有的特性,提出一种基于局部密度和随机游走的蛋白质复合体识别算法。基于子网络的局部密度找到所有的复合体核,利用随机游走为每一个核查找附件蛋白质,从而构成蛋白质复合体。将算法应用于无权和有权的酵母蛋白质网络。通过与MIPS和GO(Gene Ontology)中已知蛋白质复合体比较,讨论预测复合体的生物意义,并与现有一些算法进行全面的分析比较。结果表明,我们的算法可以找到更多具有生物意义的复合体。而且,它可以识别具有生物意义的重叠复合体。根据最大频繁模式和复合体核的特性,提出一种基于最大频繁模式识别核-附件结构蛋白质复合体算法。通过挖掘最大频繁模式检测蛋白质网络中具有较高度的子图,将其作为候选核。对得到的候选核做进一步处理:利用拓扑和功能相似性,合并最相似的核并过滤无意义的核。为每一个有意义的核添加附件蛋白质,从而构成蛋白质核-附件结构复合体。在酵母蛋白质网络上,利用标准蛋白质复合体、GO和位置注解等对算法进行性能评估,并与几个具有代表性的算法进行全面比较。实验结果表明,预测复合体在查全率、查准率,以及生物意义方面都好于现有算法。在共位置相似性方面,预测复合体集合高于已知复合体集合。而且,与其他基于子图连通性的算法相比,新算法可以检测到GO富集度高的具有非连通核的蛋白质复合体。基于模块内部边和模块间的边,以及网络平均度,给出一种新的蛋白质模块定义,并据新定义提出评估蛋白质网络划分的度量函数。作为度量函数的进一步应用,提出一种分层凝聚算法检测蛋白质复合体。将算法应用于酵母蛋白质网络,识别的蛋白质复合体与已知蛋白质复合体进行比较分析,并将算法各方面性能与其他几个典型蛋白质复合体识别算法进行比较。新算法对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性和假阴性具有很好的健壮性,能够在蛋白质相互作用数据还不完善且具有较高噪声的情况下有效地识别蛋白质复合体。此外,它既可以预测有意义的稠密蛋白质复合体,又可以预测稀疏的有意义复合体。对于复杂网络模块分解问题,基于社团的局部连通性,提出新的评估复杂网络划分的定量指标函数。由于广泛用于识别复杂网络社团结构的模块性函数Q具有分解极限。因此,新定量指标函数——度模块性(degree modularity, DQ)被提出来。证实DQ可以改进模块性Q的分解极限。而且,将其应用于不同真实网络和人工网络时,它可以敏感、可靠地检测到各种规模的社团结构。即使在大规模的生物网络,如蛋白质网络,也可以识别与已知复合体匹配率很高的蛋白质模块。本文提出几种从不同角度研究蛋白质网络模块结构识别的聚类算法,同时将模块结构识别算法研究扩展到复杂网络中。本文提出的聚类算法具有很好的聚类效果,识别的蛋白质复合体或功能模块从统计意义上证明是有生物意义的,有效预测了一定数量的未知蛋白质功能,将会对生物学家进行蛋白质复合体或功能模块识别实验和进一步研究提供有价值的参考信息。此外,针对衡量复杂网络模块性提出的定量指标函数,对于真实网络和人工网络都表现出良好的性能。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
丽水市境内有海拔高于1000米的山峰3573座,高于1500米的山峰244座,是旅游避暑胜地。此外,丽水市生态环境状况指数连续14年全省第一,空气质量在全国74个排名城市中列第8位,素
本文通过对日本和韩国足球青训后备人才发展培养模式、管理方式以及竞赛体系、教练培训体系对比分析,以日韩培养青少年足球模式为模板,总结成功经验,以期为指导我国青少年足
高效课堂是指在有效课堂的基础上、完成教学任务和达成教学目标的效率较高、效果较好并且取得教育教学的较高影响力和社会效益的课堂。高效课堂是有效课堂的最高境界,高效课
综述近年人参皂苷分析测定方法的研究新进展。人参皂苷有多种分析测定方法,主要有比色法、高效液相色谱法、超高效液相色谱法、高效液相色谱-串联质谱联用法、超高效液相色谱
切实发挥党员的模范带头作用,是抓好企业党员队伍建设的着力点。在加强国有企业党员队伍建设过程中,我们重点解决了以下“三不”问题。 一、加强培训.解决一些党员“不会干”的
公路的发展是经济发展的重要保障,近年来,随着经济的发展,我国的公路发展也十分迅速,公路建设规模越来越大。切实的做好公路的养护工作,有利于延长公路的使用寿命,最大程度上
近年来.本中心采用头针配合作业疗法治疗脑瘫上肢功能障碍患儿62例.并设常规作业疗法组65例作对照.取得较好疗效,现报告如下。
差分进化(Differential Evolution, DE)作为目前最优秀的进化优化算法之一,是进化计算、智能优化技术方面的研究热点,已成功应用于车间调度、数字信号处理、模式识别、机器智能
台北营养师赵函颖指出,人体本身有留钾排钠的机制,红豆是高钾食物,加上丰富的纤维,能帮助排便与利尿。红豆经浸泡、加水焖煮后制成“红豆水”。网络上还盛传各式煮红豆水的方
期刊