论文部分内容阅读
高通量测序技术的广泛应用导致可获得的生物数据快速增长。对生物数据的解读和对数据背后生物知识的挖掘日益成为生物信息学研究的重点。转录调控是生命体中最基本而重要的调控机制,通过计算的方法对人类基因组中转录调控进行预测分析,能够加深从本质上对转录过程、转录调控网络相互作用的理解,进而为揭示人类疾病的生物学机制提供支持。本文基于新一代测序技术产生的高通量数据,面向转录层面对人类遗传性因素的调控规律建模,设计并发展了转录调控预测及转录调控网络构建的计算模型与分析方法。此外本文还分别在数据正则化方法、新的预测数据选择以及显著性阈值选择方法等新一代高通量数据应用的理论与模型方面进行了探讨。本文研究主要包括以下几个方面:(1)提出了基于基因组功能信息的数据正则化方法。目前高通量测序数据正则化方法没有考虑到基因组的结构对于生物数据分布的影响,针对这一问题本文提出了一种基于基因组功能注释的LOWESS正则化方法。该方法考虑基因组本身不同的生物学功能的差异,可以针对不同研究目标依据不同的功能区域注释信息分区域分类别进行数据正则化处理。与传统方法相比本方法具有更高的特异性和灵活性以及更低的时间和空间复杂度。(2)提出了基于PolII数据构建的转录调控预测模型和转录因子调控网络。不同于以往基于基因表达数据的预测方法,本文以RNA聚合酶II(PolII)结合量作为预测转录调控的新数据源,并依此构建了一个高敏感性的转录调控预测流程和转录因子调控网络。在乳腺癌细胞中,通过对基于同样预测流程分别使用PolII和基因表达数据预测结果的比较分析证明了PolII数据能够为转录调控的预测提供更丰富信息。针对现有转录因子间交互协作关系识别方法的不足,本文提出了新的综合显著性打分SIS测度以及相应的显著性阈值确定标准。基于文献及实验数据证实了本文识别的转录调控TFs及其调控网络的正确性。(3)提出了针对多类型调控因子参与的转录调控分析方法,构建了具有馈环结构的转录调控网络。本文针对多类型调控因子参与的转录调控问题,构建了TFs对microRNA调控区域模型,预测了参与调控的转录因子及其共调控因子,同时还对受到调控的靶基因进行了预测。在人类宫颈癌细胞HeLa中,根据识别出的TFs、microRNA及其调控基因组成的前馈和反馈调控通路构建了具有馈环调控结构的转录调控网络。这些新识别的调控模式有助于进一步增加对于转录因子在肿瘤中的复杂调控角色与作用机制的了解。(4)提出了lncRNA中转录调控的预测方法。本文提出一种基于朴素贝叶斯框架的TF-lncRNA转录调控预测模型,该模型利用了包括序列信息、染色质状态信息、表观遗传信息等多种数据来源的特征信息,通过对先验数据的建模和参数估计来对TF-lncRNA调控的后验概率进行预测。与相应TFs的ChIP-Seq实验结果比较证实了本文方法在具有和缺乏相应特征数据时都能够对TFs的调控情况做出准确预测。