蛋白质网络模块分解的密度聚类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:nice_hope
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从生物信息学的研究进入到后基因组学时代,基因组信息学的研究重心从揭示生命的遗传信息转移到从分子整体水平上对基因功能的研究上,从整体水平上反映基因功能的蛋白质网络随之成为研究的重点。高通量的生物技术产生了大量的蛋白质网络数据,现有实验结果表明蛋白质网络是由相互作用的、可划分的功能模块所组成。检测这些功能模块对于了解蛋白质网络的拓扑结构是非常重要的。目前已有的三级分子联合体识别算法(MCODE),派系过滤算法(CPM)和马尔可夫聚类(MCL)等方法只是检测网络中“稠密”的簇而忽略了蛋白质网络自身的属性——簇有着不同的尺寸、密度和形状。本文根据蛋白质网络中模块拓扑结构的多样性,提出了一种应用于蛋白质网络的基于谱理论的密度聚类算法。它通过图的Laplacian谱映射将聚类对象映射到特征空间,在特征空间进行相似度的度量并构造相似性矩阵,最后用密度算法DBSCAN进行聚类。这种聚类方法既保留了谱聚类方法从局部信息获取全局信息的能力,又可以从含有噪声的蛋白质网络中发现任意形状的聚类。通过对酵母菌网络的仿真实验研究,从匹配率和功能同源性两个方面与已知的经典算法进行比较,结果表明该方法在应用于蛋白质功能的注释上要优于其它算法。为了进一步验证算法的有效性,对人工合成网络和社会网络也进行了测试,实验结果表明本文算法是可靠的且具有良好的扩展性。
其他文献
数据库水印技术是实现数据库版权保护的一种有效手段,它在不影响数据库使用价值的前提下将水印信息嵌入其中,通过检测或提取水印以证实数据库的所有权或完整性达到身份证明及
学位
中国互联网的变化日新月异,原本占主流地位的PC网络端逐渐没落,被飞速发展的移动互联网所取代。伴随着iPhone,Android移动平台的出现,手机游戏开发正变得越来越受到大众的欢
无线传感器网络的一个重要技术就是数据收集技术,通过将节点收集到的数据发送到基站并对其进行分析以便作出相应的决策。同时,数据收集技术也是无线传感器网络得以稳定、高效
近年来越来越多的传统行业受互联网新技术的影响和推动,运用互联网技术处理数据业务,由此产生的海量复杂结构数据使得传统的关系型数据库已不再适用。非关系型数据库凭借其自
IP多媒体子系统(IP Multimedia Subsystem,简称IMS)作为下一代网络(Next Generation Network,简称NGN)的发展方向,已经成为全球通信领域研究的热点。其归属用户服务器——HSS
智能天线技术的核心是自适应波束形成算法,但传统算法存在计算量大、收敛速度受限等缺陷。而作为一种高效并行全局寻优方法的遗传算法可以解决此类问题。研究一种适合于波束
高层体系架构是分布式交互仿真的新一代体系结构。本文对高层体系架构和数据分发管理技术做了相关论述,重点对数据分发管理进行了研究。为获得良好的可扩展性、可伸缩性,基于
随着互联网的蓬勃发展,信息技术的广泛普及,云计算技术带给人们前所未有的网络服务体验。当前针对云计算的研究主要集中在云计算的模型架构、任务颗粒度﹑任务调度策略﹑容错机制
乳腺癌严重困扰着广大妇女的身心健康,但其发病机制尚未完全清楚,给治疗带来极大的困难。论文在大量的生物信息学、乳腺癌知识的背景下对乳腺癌基因表达数据进行了分析。将预处
学位
网络的开放性使得互联网上存有很多色情、暴力等不健康内容,尤其是移动设备青少年用户的急剧增多,对移动终端网站进行评估很有必要。然而,现有的网站评估模型大多存在以下两