基于外显子芯片数据分析的人类全长mRNA文库的构建

来源 :北京大学 | 被引量 : 0次 | 上传用户:MUWANG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真核基因组可变剪接的机制研究对理解基因组水平的复杂信息结构具有重要的意义,更对疾病的研究与治疗提供了很好的理论基础。从转录起始位点到终止位置的成熟mRNA序列,即全长mRNA序列,为可变剪接的研究提供了更为准确且全面的信息,同时,全长mRNA对于生物体的蛋白组学研究、基因调控研究以及SNP等方面的研究都具有重大的意义。运用实验来构建全长mRNA库的方法普遍具有成本高、冗余性强、假阳性高等缺点。而目前的生物信息学方法仍然建立在实验获取数据的基础上,数据信息不全是严重制约生物信息学方法发展的问题。因此,发展预测全长mRNA的计算方法对进一步的基因组学研究具有重要的科学意义。   本文的主要工作是提出一种基于外显子芯片表达数据的全长mRNA的预测算法。外显子芯片的探针定位到各个外显子序列,以一张芯片承载两个功能,可以同时检测样品的基因表达和外显子表达,进而推断可变剪接事件。本文建立了一套外显子芯片表达数据的统计模型,模型的基本假设是探针集的表达强度由相关的mRNA表达量线性加和得到。首先通过F统计量检验现有mRNA集合是否足以解释探针集的表达强度;对于不充分的mRNA集合,利用贪婪算法,建立了一套启发式策略来搜索最可能的新mRNA形式。最后估算mRNA和基因的表达量。   为了检验算法的效果,进行了模拟测试。模拟测试的结果表明,本文的算法可以在大规模的mRNA形式中有效地预测出未知的全长mRNA。对于在人类外显子1.0 ST芯片中占大多数的包含6-20个探针集的基因,算法可以给出46.8%的敏感度和61.4%的准确率。算法的效果随着探针集个数的增加,搜索空间的扩大而呈逐渐下降趋势,但即使对于46.50个探针集的基因,算法仍然给出超过20%的准确率。考虑到这是在超过1013个可能的mRNA构成的空间中搜索到的,本文结果具有较好的应用前景。   将本文算法应用于人类外显子1.0 ST示例数据的11个组织中。一共找出了173,355条新mRNA。这些mRNA形式在前人的研究中都未被发现。在每个组织中找出的新mRNA都超过16,000条,说明存在大量未知mRNA。17万条新mRNA中超过2万条出现在至少两个组织中,说明这些mRNA是假阳性结果的几率很小。有86条新mRNA出现在全部11个组织中,这些mRNA可能是未知的“看家”mRNA。对小脑中有特异表达形式的基因的分析表明,这些基因的功能倾向于和神经活动相关。这也从侧面证明本文的算法可以有效找出有特异表达形式的基因。   将算法应用于结肠癌的数据,发现在癌症组织和正常组织中有剪接水平差异的基因在数量上要超过有转录水平差异的基因,在功能分布上也更广泛。另外两类基因的重叠很少。这说明比较癌症组织和正常组织中有差异表达形式的基因具有重要意义,至少也可以作为对转录水平差异研究的有效补充。   本文结果既可以用于进一步的生物信息学分析,也可以辅助全长mRNA和可变剪接的实验研究。
其他文献
本文通过对小波变换理论、ECG信号的结构特征、带截至区均匀量化器以及基于Context模型压缩理论的分析研究,提出了基于Context模型的二维ECG信号压缩方法。该方法主要分为构建
伴随着互联网和移动电商的高速发展.家电业O2O落地的步伐从未停止.而且在不断加快。O2O落地的早期探索.家电厂商更多的都是集中在一线城市。一线城市O2O市场综合实力最高,环
本文分别以卡拉胶、瓜胶和羟丙基瓜胶为主要原料制备了四种类肝素酸性粘多糖,并着重研究其选择清除血浆低密度脂蛋白胆固醇(LDL-Ch)和纤维蛋白原(Fib)的性能,获得以下结论:  
目的 观察升降散加减治疗亚急性甲状腺炎热毒壅滞证的临床疗效.方法 将62例亚甲亚急性甲状腺炎热毒壅滞证患者随机分为治疗组31例、对照组31例,剔除脱落病例后治疗组22例、对
聚焦超声外科(focused ultrasound surgery,FUS)手术作为一种非侵入式的无创治疗手段正越来越多地应用于临床治疗,也被越来越多的患者所认可。聚焦超声外科(FUS)技术将体外超
山水画的意境画山水,最重要的问题是“意境”。意境,是山水画的灵魂。什么是意境?我认为,意境就是景与情的结合。写景就是写情。山水画不是地理、自然环境的说明和图解,不用
后基因组时代,发现和研究基因组功能元件,从DNA角度揭示生理和病理现象是生物医学研究最重要的领域之一。随着遗传学研究的深入,人们逐渐认识到染色体上临近的基因组元件之间
琵琶在汉魏时期由西域进入中土,历经两千年发展演化,已经成为我国标志性的民族乐器.该器在发展过程中有两大高峰:一是两晋南北朝至隋唐,一是明清.尚有一个重要节点,这就是因
期刊
脑的功能具有两个基本的组织原则:功能分化与功能整合。人脑通常作为一个网络来完成其功能。从网络结点连接的角度来研究可分为局部网络和全局网络。基于局部网络的研究方法
由于氧化铝售价的大幅度降低及生产用原燃料价格的上涨,烧结法生产大幅亏损乃至停止生产,由此造成闲置设备多、开工率低,停产损失大。而目前低温拜耳法氧化铝制造成本较低,且