生物共调控网络中的模体挖掘算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:gaoliqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量测序技术的出现与发展对基因组学研究起到了重要的推动作用。短时间内基因组学数据、蛋白质组学等数据呈现爆发式的增长为生物领域的研究提供了新的方向。网络模体发现作为生物信息学的重点课题之一,其对研究目标网络中的关键调控机制以及疾病发病机制等有重要作用。网络模体指的是在一个较大的目标网络中过度呈现的子图,此类子图被认为代表了网络中关键的结构和调控机制。模体挖掘算法的复杂度一般都较高,主要表现在子图搜索和子图同构判断两个步骤。利用抽样方法可以缩小子图的搜索空间从而提高模体挖掘的效率,但不合理的抽样方式容易给模体发现带来较大误差。本文提出了多种抽样方法,用来探究更合理的网络模体抽样模型。除此之外,本文还设计了全新的子图同构判断方法,用来实现更快的判重。最后,本文运用并行技术来加速算法。主要研究工作如下:(1)为了提升模体发现的效率,本文在子图搜索树的每一层均引入等概率的无偏抽样,每一次扩展子图都只选取部分候选节点,缩减子图搜索空间的同时,也避免了基于边抽样引发的偏置问题。借助节点的类型、度数(节点的出、入度之和)等属性,将子图的同构判断过程设计为一系列串行的与节点属性有关的条件判断,加速了子图的同构判断过程。除此之外,本文还对比较耗时的子图搜索步骤引入了多线程技术,并通过实验证明随着CPU的可用核心数增多,多线程带来的时间节省比例更大。为了得到何种抽样率下抽样性价比更高,本文对不同的抽样率各进行了多组抽样实验,结果表明抽样率设置为0.5的时候本文的抽样算法可以在时间和子图还原度两个方面达到最佳平衡点。(2)本文基于复杂生物网络的无尺度属性,设计了两个抽样算法:第一种是基于节点度序列的抽样,该方法需要预先设定一个抽样比例rate,在进行子图扩展时,会根据当前被扩展节点的邻居节点集合按照度升序排列,然后按照rate比例选取节点用于形成新的待扩展节点集合。第二种是基于分层抽样的方法,该方法会对数据集中的节点度进行统计,根据最小方差分层定界法将度数不同的节点划分到各自的层中,在进行子图扩展时,根据预先设定好的抽样率计算出每一层的样本数,算法从每一层中抽取节点构成待扩展集合。通过实验证明了两种抽样算法的有效性,能够达到算法耗时和目标网络还原度之间的平衡。
其他文献
电力需求响应是利用需求侧负荷柔性缓解电网供需不匹配并增加电网灵活性的有效途径。建筑空调负荷作为参与电力需求响应的主要柔性负荷之一,了解其响应潜力对于有效开展需求响应十分重要。然而目前针对我国办公建筑中广泛使用的风机盘管空调系统的需求响应机理和响应特性尚缺乏深入系统的研究,这使得其需求响应潜力未能充分发挥。同时,随着电网对灵活性需求的增加,充分了解风机盘管空调系统在需求响应全过程及多工况多区域下的动
乳腺癌严重威胁女性的身心健康。早期非转移性的乳腺癌是可以被治愈的,但是晚期乳腺癌由于其远端转移和高复发率严重危害女性的生命安全。常见的乳腺癌治疗方式主要为手术切除和化疗。由于手术后常残留一些微观病灶和游离的肿瘤细胞,往往会造成肿瘤的复发和转移,主要因素是游离的肿瘤细胞会提高机体的循环肿瘤细胞(CTC)水平,从而和残留的肿瘤组织共同导致肿瘤的复发和远端转移,形成较差的预后,降低患者的生存能力。化学疗
在癌症治疗中,由于传统化疗药物缺乏对癌细胞的选择性治疗而造成了不期望的副作用。尽管靶向前药已广泛用于临床并减轻了这些问题,但仍然有一些不可避免的缺点,如“脱靶效应”。利用细胞器精准给药或癌细胞内双重/多重生物标志物诱导药物活化可能是规避这种缺点的有效方法,它可以有效改善药物对癌症的选择性治疗,同时减少不期望的副作用等。黑色素瘤是一种强侵袭性和高死亡率的恶性皮肤瘤,目前迫切需要开发能够有效特异性治疗
随着化石燃料带来的环境问题日益严重,化石能源的日渐枯竭,开发具有清洁、高效、安全的新能源材料与技术迫在眉睫。近年来,以有机无机杂化钙钛矿(Organic-Inorganic Hybrid Perovskite,OIHP)材料为基础的研究成为了科研与产业界的重点关注对象。2009年,有机无机杂化钙钛矿第一次被报道应用于光伏电池中,其能量转换率为3.81%,经过约10年的发展,目前能量转换率超过了25
随着集成电路系统已广泛应用在能源、交通、工业、国防等诸多关键领域,单位面积的集成电路的集成度以及集成电路的规模不断提高,集成电路的体积不断变小,这种发展趋势一方面使集成电路工作效率不断提高,但另一方面也会伴生越来越严重的电磁干扰问题。这种冗余的电磁波不仅对人们生存环境和健康造成危害,而且也会反过来影响精密仪器与电路的运行。所以,无论是出于民用考虑还是军事用途考虑,都迫切需要开发出高性能的电磁波吸收
随着串并接口(Serializer/Deserializer,Ser Des)技术的快速发展,有线通信设备对于Ser Des传输数据的速率和质量要求越来越高,影响高速Ser Des传输数据质量的因素主要是信道和封装的非理想特性。Ser Des中的时钟数据恢复电路(Clock and Data Recovery,CDR)用于从包含抖动信息的输入数据中恢复出抖动较小的时钟和数据,是决定通信系统接收数据
聚焦透镜是构成光学成像系统的基础元件,被广泛地应用于生物学、医学、材料学和微电子学等众多领域的技术研究和工业制造中。然而,由于光的衍射现象,传统光学透镜能分辨的最小特征尺寸被限制在衍射极限内。因此,突破衍射极限获得更高成像分辨率对于微纳领域的研究来说意义非凡。近年来,光学超振荡现象已经被证明可以实现非侵入式的远场超分辨成像。这种新颖的现象本质上是光场精细干涉的结果,它可以有效地避免复杂的近场操控技
癌症是当今危害人类生命健康的主要因素之一,是正常细胞在致癌因子的刺激下导致细胞分化和增殖异常,最终发展成为肿瘤组织的一类疾病。由于肿瘤具有生长快、易转移、难根除的特点,使得癌症的治疗效果十分不理想。根据世界卫生组织的近期报告,乳腺癌在全球发病率最高,威胁着数以万计的女性的生命健康,攻克癌症是关乎人类生命和健康的重要课题。传统的解决方案如外科手术、化疗和放疗等都已实现临床应用,但存在根除难、副作用大
碱金属单质在常压下采用高度对称的体心立方结构,它们的电子结构可以用自由电子模型描述,然而碱金属在压力的作用下表现出了许多不同寻常的新现象,例如呈现出原子数目更多以及对称性更低或更高的复杂的新结构,压力诱导转变为超导体,在高压下出现电阻等物理性质的异常变化,以及金属向绝缘体的转变等。这些高压新相出现的新奇的物理现象极大地丰富了人们对于高压科学的认知。Cs在环境压力下是简单的体心立方(bcc)结构,开
为研究日照作用下钢箱梁的温度分布规律以及温度梯度对正交异性钢桥面板构造细节应力的影响,本文对两座钢箱梁桥进行了温度场现场实测,建立钢箱梁节段模型进行温度场有限元分析,并将横隔板上测试截面的温度计算结果与实测数据进行了对比,最后通过子模型技术研究了温度场在正交异性钢桥面板构造细节处产生热应力的大小及其对结构疲劳寿命的影响。主要内容如下:(1)分别在夏季的强日照和高温天气下以及四个季节中典型的晴朗天气