论文部分内容阅读
对于多细胞真核生物来说,细胞的特异性功能是十分重要的。这就要求在相同遗传物质的基础上,细胞能够通过不同的基因表达模式来适应环境的变化。基因表达调控的因素有很多,近年来随着对基因组非编码区的研究,发现了一些非编码的DNA序列对于基因表达调控具有重要意义。增强子是对基因表达调控具有重要作用的非编码序列元件之一。一些增强子能够通过转录产生具有调控功能的RNA,也被称为增强子RNA(enhancerRNA,简称eRNA)。因此对于增强子的序列特征、作用位点以及在特定时间和特定组织中表达模式的研究成为了基因表达调控领域的一个重要问题。然而由于增强子的调控模式会受到时空特异性等因素的影响,因此对于组织特异性增强子的研究,尤其是与疾病相关的研究一直是近年来增强子相关研究的重点问题。随着高通量测序技术的发展,生物学数据实现了爆发式的增长,同时也使得通过计算学方法应用这些数据大规模分析增强子的功能成为可能。而已有的生物信息学研究对于现有的数据利用不足或者无法满足预测精度的需求。针对现有的增强子预测及分析方法中存在的问题,本文首先对增强子进行了生物特征分析,在此基础上提出了增强子的预测方法。进一步地,通过对全基因组SNPs数据进行分析,提出了基于SNPs数据的肝癌相关增强子的预测方法。最后,提出了基于随机森林的增强子作用位点预测方法。本文的主要内容包括以下四个部分:(1)使用生物特征来预测增强子一直是一个热点问题,已有的生物信息学方法只应用了一种或几种特征来预测增强子,忽视了其它特征对于表征增强子的作用。本文则充分考虑与增强子相关的多种生物特征,包括:序列特征,转录特征和表观遗传特征。通过对每种特征进行量化处理来分析不同特征在增强子预测中的重要程度。最后说明了分析结果的合理性。(2)已有的研究对于预测增强子的方法主要集中在实验手段和分析表达量差异的方式,这种方法难以实现高通量的预测或者预测精度较低。本文从与增强子相关的生物特征出发,基于后验概率贝叶斯分类模型对增强子进行预测。通过人类肝癌和正常组织中的表达数据,本文预测了人类基因组上与肝癌相关的增强子lncRNA。与其它预测增强子的方法相比,该模型具有更高的预测准确度。(3)与增强子相关的单核苷酸多态性(Single Nucleotide Polymorphism,简称SNP)等遗传突变在疾病的产生和发展过程中起了重要作用。这些遗传突变通过影响转录因子与增强子的结合程度对增强子的功能进行调控。因此可以应用SNPs数据对疾病相关的增强子进行预测。本文通过量化不同SNPs与增强子内部转录因子结合位点序列的结合程度,转化为SNPs对于增强子转录调控功能强弱的度量,构建与疾病相关增强子的预测模型。通过人类肝癌组织数据,本文对该模型进行了测试,验证了结果的合理性。(4)增强子对基因表达起调控作用主要体现在其与基因启动子区的相互作用上,因此有效的预测增强子与启动子的关联关系对于分析增强子的功能是十分重要的。目前应用计算学方法对增强子调控位点的预测正确率有限。因此,本文提出基于随机森林方法综合使用增强子区、启动子区和增强子与启动子间基因组区域的多种生物特征来预测增强子与启动子的关联关系。通过与其他预测方法相比,该模型具有更高的预测精度。