论文部分内容阅读
下一代高通量测序技术的应用背后如果没有后期强大的生物信息学分析能力,那么所有的基于测序的生物学研究都将举步维艰;而数以G计的测序数据的产生给生物信息研究人员提供了新的挑战及难得的施展机会。本论文研究的是高通量测序平台SOLiD系统所产生的序列数据分析策略,包括ChIP-seq数据分析管道的总结,ChIP-seq分析管道中关键步骤算法的评估选用,ChIP-seq数据分析新的角度的开辟,和MeDIP-seq数据分析和ChIP-seq数据分析的差异比较。
ChIP-Seq是在全基因组水平上研究活体细胞中蛋白质和DNA相互作用谱的有效手段。SOLiD系统是目前测序通量最高的新一代DNA测序系统。在SOLiD系统的DNA测序文库制备过程中,采用对免疫共沉淀获得的DNA片段进行二次超声打断可以满足ePCR对序列长度的要求,因此SOLiD测序文库中的DNA测序片段较短。本课题首先研究测序文库中DNA片段的长度对ChIP-Seq分析的影响,以筛选出合适的软件分析本实验室的所产生的ChIP-seq数据。通过真实的ChIP-seq数据和模拟产生的ChIP-Seq数据,对目前3种主要的ChIP-Seq分析方法(CisGenome,SISSRs以及MACS)的特点进行研究。通过模拟数据分析结果我们认识到在使用ChIP-seq分析软件时,需要结合我们的实验设计和软件的设计思想,在两者相匹配的情况下选择最为合适的软件进行分析。三个软件平台中,CisGenome相对于其他两个可以提供不受测序平台限制的分析,并且其分析平台在Windows操作系统上提供友好界面,此外,还提供motif分析,可视化,基因注释等功能,是一款实验生物人员也易于操作和学习的软件,因此,在对本实验室所产生的真实的ChIP-seq数据进行分析时,这个软件成为首选软件。
一次转录因子的ChIP-seq实验可产生成千上万个富集位点,但是大部分富集位点都没有落在转录起始位点附近(启动子区)。许多证据表明核小体在基因周围的分布情况是:在转录起始位点前有一个无核小体区,该无核小体区由前后两个信号强烈的核小体区(-1号和+1号核小体)包围。我们针对用ChIP-seq技术鉴定的转录因子NRSF的在全基因组范围的结合位点数据,考察了各富集区域的实验的(ChIP-seq所测)和预测的核小体分布情况。通过实验所测核小体信息,在随机所选的位于启动子附近的ChIP-seq富集区域内,我们同时发现了核小体占位和核小体缺失;通过预测的核小体占位,对于那些非启动子附近的富集峰,它们转录相关性可部分地通过TSS附近的理想的核小体的定位来确定。由于通常只有一小部分的富集区域可以注释到已知TSS附近,可以推测这一方法可用于ChIP-seq的注释步骤。
基于他人用组蛋白标记物预测的miRNAs启动子数据,我们利用ChIP-Seq技术寻找转录因子EGR1在K562细胞系中与miRNAs的结合位点,共在124个不同的miRNAs的启动子区发现EGR1的结合位点,占已知启动子的miRNAs基因(294)的42%。我们选择其中的12个miRNAs进行了ChIP-PCR实验验证,验证结果部呈阳性。这个实验首次在PMA处理的K562细胞系中发现了转录因子EGR1与124个miRNAs的结合,将有助于该特定细胞系的miRNA的转录生物学通路的理解。