生物概率网络中频繁模式识别算法的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:sccd920141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物技术的发展,产生了大量的生物网络数据。研究者发现,此类网络中除了具有一些固有的全局属性,如“小世界”和“无标度”等之外,还具有一些能够表征特定功能的拓扑频繁结构,即模体。所谓模体,是指在某个网络的多个不同部分出现的某一相互连接的子结构,其表达程度明显高于在随机网络中的表达。如何从这些生物网络数据中发现此类具有特定生物功能的拓扑结构已成为生物信息学的一个研究热点。实验表明,生物模体的识别有助于研究生物网络的功能模块结构和生物体的进化过程。目前针对生物模体研究,已经取得一定进展,不过主要是针对确定图数据,即边或顶点存在与否是确定的。但在实践中,研究得到的生物网络数据往往带有不可避免的实验误差或者噪声数据,另外,生物进化过程本身也是一个动态变化的过程。因此,概率模体更能体现生物体进化的动态过程和生物网络功能模块的特殊意义。  概率频繁模式的识别是生物网络模体识别中的关键一步,在目前已有的研究工作中,主要采用可能世界模型,即将每个概率子图映射成2n(设n为概率子图的边数)个可能的图实例。这样随着概率模体规模增大,其枚举的可能世界图实例空间规模将急剧增加,算法复杂度指数级增长。  因此,本论文的主要工作如下:  提出一种基于电路模拟法的概率同构判断方法。该方法简化了概率子图转化成其蕴含的确定图的过程,避免使用传统算法采用的可能世界模型,创新性地将子图同构的拓扑比对转化成节点电压序列的比较,进而判定两图的概率同构;  采用星形比对和聚类算法解决概率多图同构计算。概率同构判定问题涉及较多矩阵运算,且概率同构有别于确定图同构,其概率同构与否受阈值限定。为解决任意子图两两判定方法复杂度高过高的问题,本文提出基于聚类的概率多图同构算法有效地降低了计算复杂度。  在上述研究的基础上,设计并实现了概率频繁子图识别算法,并通过实验总结得到概率同构阈值的有效取值范围。实验结果证明,概率频繁模式识别在确定图数据集上能够得到与确定图同构算法一致的结果,并且能在概率图集上识别得到相应规模的概率模体。
其他文献
在无线通信技术飞速发展、无线业务需求日益增大、频谱“不足”与“浪费”并存的时代背景下,认知无线网络(Cognitive Wireless Network)被认为是解决频谱资源供求矛盾的核心架
在处理计算机问题时,现实中遇到的数据一般都是高维度的,存在很多不相关的冗长特征。这为现实问题的解决带来了一定的困难。人们研究出了特征选择算法,以此提高算法选择的准
随着网络信息时代的高速发展,文本信息在网络上的数量越来越多,并且其数量正在以不可估计的速度增加。面对数量如此巨大的网络文本信息,如何从中获得对用户有用的信息是当今
自动乘客计数算法作为智能公交系统中的关键技术,一直以来都是国内外学者研究的重点。该技术一般应用于公交、地铁以及商城等客流密集的场所,其统计结果可为决策者提供实时的客
近年来伴随着网络的遍及,网络犯罪率的增长速度十分惊人,而在计算机安全领域有这样一个全新的分支——网络取证,受到了越来越多的关注。对于网络犯罪案件,需要采用有效的工具
随着信息技术的迅猛发展,信息的重要性和价值不断地增长,因而对于存储系统的可靠性、可用性提出了更高的要求。目前,磁盘阵列已经成为构建大规模存储系统的基本组成单元,磁盘阵列
随着人们对公共安全越来越重视,视频监控系统在安全防范领域的作用日益突出。现代的视频监控系统需要存储海量的数据,包括视频数据和小文件数据(关键帧、运动物体截图)等,对这些数
IEC61131-3标准定义了两类编程工具:文本化编程工具和图形化编程工具,其中梯形图(Ladder Diagram)是当今最通用的图形化编程工具。可编程控制器的核心是一个顺序处理器,它的速度
图像处理是计算机科学中一个重要的研究方向,有着广泛的应用。图像理解是图像分析的关键基础之一,也是图像处理研究中的热点与难点。图像理解有两种常用的手段,即图像分解与图
学位
图案在人们生活中无处不在。随着科技的进步和计算机图形学的发展,图案的绘制也开始由传统的手工设计方式向计算机辅助创作方式进行转变。目前利用计算机绘制图案的方法主要