染色质高级结构建模及基因组网络分析方法研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:wangshuanghong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组染色质的结构与功能息息相关。在生物细胞核中,基因组的空间排布并非是杂乱无章的,基因的转录调控过程和基因组染色质的结构在多个尺度和层面上密切相关。研究基因组染色质的组织结构对分析基因的转录调控和其他生物过程具有重要的指导意义。近年来,随着高通量技术的发展,染色体构象捕获技术(Chromosome ConformationCapture,3C)及其衍生技术得到了广泛的应用。Hi-C技术作为“全部对全部”的检测技术,可以在全基因组的范围内高通量的检测染色质之间的相互作用关系,并大量应用在对基因组染色质高级结构模型的构建和分析中。  对染色质高级结构的建模,本文主要从两个经典的模型出发,包括拓扑关联结构域(Topological Associated Domains,TADs)模型和染色质相互作用网络(Chromatin InteractionNetwork,CIN)。通过分析Hi-C数据,并对其预处理得到染色质交互频率,由此构建染色质相互作用网络。因为染色质相互作用网络社区的结构和拓扑关联结构域的生物意义吻合,所以利用网络社区发现的方法对染色质相互作用网络进行拓扑关联结构域的划分是可行的。对基因组网络的分析,本文主要利用拓扑学分析和PageRank方法对重要枢纽节点进行判定,对染色质相互作用网络进行分析,论证了其枢纽节点染色质片段重要的生物意义;这种枢纽节点筛选的方法也有效的应用到了疾病的差异表达基因相互作用网络致病基因的筛选上。  本文首先研究了针对复杂数据集适用的改进核谱聚类(Path Density Kernel SpectralClustering,PDKSC)算法,并在其基础上提出应对社区发现的基于最小邻域路径密度社区发现(PDKSCnet)算法。然后基于Hi-C数据构建CIN网络,通过利用提出的PDKSCnet算法对网络进行社区发现,找到对应的TADs。最后对CIN网络以及基因相互作用网络进行网络分析,并对TADs进行进一步生物分析。  具体研究内容如下:  (1)提出了基于路径密度距离的改进核谱聚类(PDKSC)算法,可以有效的检测密度低谷,使得高密度区域之内的样本点核相似度更近。提出的PDKSC算法通过对多个复杂结构数据集测试,与K-Means、谱聚类算法和核谱聚类算法的比较,均得到了更好的准确的聚类结果。同时对于样本量大的数据,该算法也具有较好的聚类效果。  (2)在路径密度距离的改进核谱聚类算法的基础上,根据网络社区结构特点,提出了最小邻域路径密度的定义,该路径密度的定义可以更好的描述网络社区结构,使得同一社区之内连边的最小邻域路径密度较大,而不同社区之间的最小邻域路径密度较小,有助于算法对网络社区进行有效的划分。利用最小邻域路径密度的定义,提出了应对社区发现的基于最小邻域路径密度社区发现(PDKSCnet)算法。通过对人工测试网络数据集和真实网络数据集以及大规模网络的测试,证明了提出的网络社区发现方法的有效性。  (3)对染色质相互作用网络的构建。首先将染色质锚点作为网络中的每个节点,这种方法使得构建的网络具有更高的分辨率,并且充分考虑到了限制性内切酶分布引起的偏差。而大多数的Hi-C交互矩阵都是基于一个很大的移动窗口,而且染色体的起始切割点是任意的。同时对于网络的节点给予一个相互作用的相对熵得分,这个相对熵的得分充分考虑了随机的背景分布,使得所选的连接更具有统计学意义。  (4)从网络社区划分的角度,重新设计了染色质拓扑关联结构域的划分方法。本文从标准化的染色质交互频率矩阵构成的染色质相互作用网络的角度,通过对全网的搜索和网络社区的划分,找到染色质交互网络社区。因为网络社区发现的方法摆脱了沿着同一条染色体线性搜索的限制,利用提出的社区发现的PDKSCnet方法,找到了跳跃的密切联系的染色质紧密连接区域,即非连续的拓扑关联结构域。与Dixon的拓扑关联结构域相比,该非连续的拓扑关联结构域具有更好的模块度。  (5)使用加权PageRank方法对基因组网络的重要枢纽节点进行分析,网络的枢纽节点被认为是PageRank值最高的节点,该方法不仅选择了度高的节点,还可以选择其他的度比较低,但和重要节点连接的节点。在构建的染色质相互作用网络中,枢纽染色质片段被证明显著的接近一些活性标志蛋白并且远离抑制的标志蛋白。而且在脊椎动物中显著的保守并且和管家基因高度重叠。同时本文也将该方法应用在疾病的差异表达基因相互作用网络致病基因的预测中。
其他文献
随着计算机网络的普及和发展,网络入侵呈现出综合化发展趋势,入侵者在实施入侵时往往采用多种技术手段、进行分布式入侵,从而使得现有基于规则的滥用检测系统检测效率较低,相应误
由于酸碱中和反应中pH值呈现严重的非线性及大时滞,给pH值控制带来极大的困难,pH值一直被公认为最难控制的变量之一。 本论文对实验室酸碱中和反应装置的pH值和液位进行MIMO
目前基于静息状态(resting-state)功能磁共振成像(functional MRI,fMRI)的研究已经越来越多。这些研究绝大多数考察基于血氧水平(blood-oxygen level dependent,BOLD)的fMRI信
本论文是以实验室冰箱为研究对象,首先建立实验室冰箱的温度测量装置,采用C语言进行串口通讯编程并将采集的数据在计算机中进行画图分析处理;其次,采用机理建模法对冰箱的压缩机
随着科技的发展和社会的进步,板形控制越来越受到普遍的重视,实现板形控制的一个重要环节是板形的在线检测.为了提高控制系统的精度,降低企业生产成本,提高板带的质量,设计高
通过建立柴油机行业的敏捷制造模型,建立了敏捷制造的时间与费用关系,采用邻接矩阵理论解决了动态工艺路线问题。提出了基于AM理论的企业信息集成方法,解决了跨企业的信息集成技
学位
说话人检测是基于生物特征识别技术、从音频信息中搜索和定位目标人出现的次数和时间位置的一种模式识别技术,是语音识别应用领域的一大研究课题。本文基于电视广播音频检索和
随着计算机性能的不断提高,Internet带宽的不断增长,多媒体信息压缩技术和视频/音频流技术的不断发展,人们可以获得的媒体信息越来越多,如何从海量的多媒体信息中快速检索出所需
虚拟企业(VirtualEnterprise)作为信息社会发展的产物,一方面为企业高效协作、提高竞争力提供了新的组织形式,另一方面由于其动态性、临时性和分布式等特点,对网络连接及其安全