基于新一代测序数据的启动子类型识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:whywhywhy_why
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于人类基因组的整体探究工作已进入“后基因组时代”,这是一个以揭示、阐明、挖掘基因组功能为核心研究对象的时代,在测序技术大力发展的东风下,基因表达产物和表观信息的功能鉴定已然进入“大规模、高通量”的全新阶段。对于基因表达调控机理的研究俨然是热门课题。而对于基因表达调控网络中的关键元件——启动子类型识别研究成为更深入理解人类基因组庞杂调控机制的敲门砖。在本课题中,我们首先对注释基因数据进行了一步预处理,得到本文称之为单一基因的数据,然后基于RNA-seq测序数据,计算多个细胞系(Hepg2、Huvec、Gm 12878、K562及H1hesc)的基因表达量及分析各个细胞系的基因表达水平。接着又根据启动子区域有RNA聚合酶Ⅱ富集的特性,利用PolⅡ的ChIP-seq数据结合基因表达水平去识别活跃启动子与预备启动子,并研究了包含不同类型启动子的基因的表达水平情况以及在此基础上分析细胞系中的选择性启动子情况。最后,将距离基因转录起始位点上下游各1000碱基对的大区域分割为10个长度为200碱基对的小区段,去统计细胞系H1hesc、Huvec以及Gm12878的6种组蛋白修饰信号在划分区域的分布情况,分析组蛋白修饰信号在不同类型启动子区分布的特异性。以细胞系H1hesc的组蛋白修饰特征数据为训练集,应用机器学习算法训练分类器对细胞系Huvec和Gm 12878的候选启动子进行类型预测识别。
其他文献
随着网络技术的不断发展,网络环境也日益复杂。在复杂的网络环境尤其是当前云计算环境下,人们对软件功能的要求和期望越来越高,致使软件开发过程的后期维护和改进的需求更加
索杆铰接式伸展臂由绳索、杆件和球铰等部件组成,由于质量轻盈及较高的稳定性,越来越多地被应用于各种航天器之中。索杆铰接式伸展臂展开过程的动力学建模方法与数值仿真研究
近几年,社交网络在互联网中的地位越来越重要,已经被广泛地进行了研究,因为人们更愿意在社交网络中分享他们的想法和心情状态,社交网络中蕴藏着大量有价值的信息,利用社交网
近年来,随着我国人均机动车保有量的快速增长,道路交通安全形势面临着愈加严峻的挑战。交通管理部门通过在高速公路和城市路口安装越来越多的卡口摄像机等设备来获取车辆图像,然后结合后台的智能交通系统分析,以此加大对车辆的监控管理。车辆检索,也被称为“以车搜车”,是智能交通系统中最重要的组成部分之一。因此,车辆检索技术的研究具有重要的应用价值。由于车辆图片数目的快速增多以及车辆类别数的不断增加,传统的检索方
学位
P2P技术进入我国市场的时间并不长,但近几年来,随着我国宽带技术的发展和我国网民对P2P的逐渐认可,国内的P2P市场正在日益发展壮大,相关业务己占据互联网业务总量的70%以上。巨大
随着人们生活水平的不断提高,皮革产品越来越深入到人们的生活中,人们对皮革产品的质量要求越来越高。另一方面,通过人工检测皮革质量的速度和精确度已不能满足社会发展的需
随着网络技术的成熟,以Internet为基础平台的分布式系统取得了快速的发展,其表现为一个由多个软件服务实体所组成的动态协作系统,在协作处理过程中涉及大量的数据处理和模型
随着计算机辅助计算、多媒体应用以及网络等技术的发展,网络教学成为一种最具应用前景的远程教育模式,并从根本上改变了人们的学习方式。自动阅卷系统作为网络教学中一个重要组
纹理图像分割是图像处理和机器视觉领域中的一个重要研究内容,是连接低级视觉和高级视觉的纽带,被广泛应用于医学图像处理和遥感图像分析等领域。根据图像中不同区域的纹理特
模型检测(Model Checking)是由E.M.Clarke与E.A.Emerson提出的一种形式化验证方法。其基本思想是在有限状态转移系统上,通过穷尽搜索的方法,验证系统规范是否得到满足。它广泛