基于ChIP-Seq数据的染色质状态识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jicaomin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划、ENCODE计划、千人基因组计划的顺利实施与完成,基因组学研究的重点已经从揭示生物体的遗传信息和密码学转变为分子整体水平的功能研究。高通量测序技术的迅猛发展强有力地推动了功能基因组学的研究,人们逐渐认识到染色质是一个动态的基因组组织者,指导DNA的活动。使用染色质组蛋白修饰信号的组合来注释染色质状态成为发现调控区和细胞种类间特异的活动模式以及解释疾病之间的联系的主要方法。特定DNA调控元件之间的长距离染色质接触在基因表达调控中起着关键作用,在理解信号网络和细胞状态时,必须全局识别这些三维(3D)染色质结构中的相互作用。利用成对末端标记序列(ChIA-PET)进行染色质相互作用分析,从而调节基因表达,并进一步影响其他细胞的活动。本文主要选取了多个细胞系(GM12878,K562,MCF7,Hela-s3)的组蛋白修饰数据,对其进行数据分析及富集水平研究。通过相关的特征选择方法进行特征表示,并配以多种无监督聚类算法进行组合,进行多个细胞系的染色质状态识别。实验表明,基于特征表示与聚类的组合算法具有较好的实现,说明这种思路是合理而有效的。只根据ChIA-Seq数据无法预测三维染色质结构的相互作用,因此在加入ChIA-Pet数据进行标注三维染色质结构的相互作用,进而结合两者形成合理的数据集来进行有监督学习方法的预测。方法中结合了序列特征和表观特征,其中序列特征的处理引入了Word2Vec语言模型,表观特征包括了组蛋白修饰以及DNase-Seq信号。试验结果表明模型有效地识别出长距离染色质的相互作用,完善了染色质状态的三维状态。
其他文献
近年来,受学龄人口下降的影响,我国大部分地区在基础教育阶段出现了教师资源相对过剩的局面。为了缓解中小学教师结构性过剩这一矛盾,很多地区实行了教师退出机制。实行这一
<正>1引言传统的自由落体运动实验的方法有两种,一是利用打点计时器在纸带上直接记录物体自由下落的高度和时间,并根据纸带上的数据计算出重力加速度;二是用自由落体实验仪,
试验旨在通过实地调查和实验室检测相结合的办法来获得数据资料,借助计算软件,利用康奈尔净糖类和蛋白质体系(CNCPS)模型评估牛群在传统干玉米秸秆饲喂方式与青贮玉米秸秆补
当前,我区生态环境质量持续向好,但我们必须清醒地认识到要在保护好生态环境的同时,实现经济社会的又好又快发展,在实践中还必须坚持以完善绿色机制、发展绿色生产、创造绿色生活
报纸
煤炭资源是全球重要而又稀缺的能源和原料,尤其是在中国,煤炭在国民经济发展过程中扮演着不可替代的作用。尽管煤炭在中国国民经济发展中具占有举足轻重的地位,但是中国煤炭
白蚁种类多、繁殖快,是当前防治工作需要面对的重要问题,其每年均会造成巨大的经济损失,已成为了世界性的害虫。该文介绍了白蚁的生物学特性、危害特点及其防治技术研究进展
<正>吴筠著作较多,思想也纷繁复杂,概言之,有"元气自然"的宇宙结构论、"秉气善恶"的人生性情论、"道本儒末"的社会自然论等。他对宇宙、人生和社会有着深入的思考和把握,反映
<正>在一些解析几何题的求解过程中,不少同学经常陷入"找到了路",却"走不出"的困境.由于不注意探求优化解题过程、降低运算量的方法与技巧,常常因繁杂的运算半途而废.如果我
近年来,随着我国采矿量的不断增大,采矿的难度也在不断提升,传统的采矿方法已经不能满足企业的采矿需求,因此,需要对传统的采矿技术进行完善和创新,以确保矿产开发事业持续稳
该文研究不同基本培养基、不同激素组合及不同培养方式对互叶白千层无菌苗生长的影响。结果表明木本改良MS基本培养基适合无菌苗生长,不同的植物部分生长对激素浓度的要求不