基因表达关系分析中的关键算法和并行优化技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:wuchianren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在基因的表达关系分析中,DNA甲基化和miRNA在基因的特异性表达以及癌症的发生方面发挥着独特的作用。本文分析了当前基因表达关系分析中的关键算法和并行优化问题,并设计和实现了WGBS(Whole Genome Bisulfite Sequencing,全基因组亚硫酸氢盐测序)分析软件Hint-Hunt、P-Hint-Hunt、BSMAPOS以及miRNA正向调控基因表达关系分析方法MEGEAM。通过实验表明,我们研发的软件和方法能达到预期的目的并取得显著的并行加速效果,相关软件已经在复旦大学医学院得到实际应用。首先,在全基因组DNA甲基化的研究方面,WGBS分析是其中最主要的内容之一,针对WGBS中传统的双端同步法比对的匹配率较低的问题,新的双端异步法在原理上进行了改进,但该方法测序产生的双端异步数据无法用已有的软件进行分析。因此,本文分析了双端异步数据的特点,以及新软件的功能和效能需求,利用改进的Smith-Waterman算法进行最优相似性的序列比对,并进一步实现最优筛选、得分共享、假阳性识别等功能,研发了处理双端异步数据的软件Hint-Hunt。测试表明,Hint-Hunt可以正确地计算出全基因组DNA甲基化水平,且比对的准确率从以往的75%左右提高到了约80%。其次,目前测序数据产出速度的增长已超过摩尔定律,串行软件或面向单机的多线程软件无法满足快速处理的要求。本文一方面对Hint-Hunt软件进行了多线程和多进程的深度并行优化,并行后的软件P-Hint-Hunt在测试中具有良好的稳定性、可扩展性和接近线性的加速比;另一方面,为充分分析利用当前数据库中已有的双端同步数据,针对目前广泛使用的BSMAP存在的局限和问题进行了多进程优化,实际测试中采用32个节点时,优化后的BSMAPOS可将原来单样本数据的处理时间由近43小时压缩到2.5小时左右。最后,为了研究miRNA正向调控基因表达的作用关系,本文从公共数据库TCGA中已有的miRNA和基因的表达量数据出发,采用基于海量数据构建共表达网络的策略,设计和实现了MEGEAM分析方法。我们利用MEGEAM方法对370个肺癌样本的数据进行分析,得到了与肺癌具有强相关性的6个高价值miRNA和5个重要基因,其中近一半的结果在已有的医学或生物学文献中得到验证,为肺癌相关的联合用药提供了部分依据。
其他文献
随着科技飞速发展和5G数字化时代的来临,数字图像已经成为日常生活中最常见的信息来源之一。但数字图像在形成、存储和传输过程中常会出现信息丢失的情况,造成数字图像破损。
红层地貌是发育于红层上的侵蚀地貌,部分具有较高科研价值与观赏价值,丹霞地貌就是其特殊类型之一。祁连山地区位于青藏高原东北缘,构造运动强烈,红层出露较好,发育了别具特
在国际关系学界,绥靖政策即指20世纪30年代以张伯伦为首的绥靖主义者对纳粹德国侵略行为的纵容,1938年英、法炮制的慕尼黑阴谋更是将绥靖政策推向了顶峰,也为该政策的破产以
古斯塔夫·奥斯卡·奥古斯丁·蒙特留斯(Gustaf Oscar Augustin Montelius,1843-1921),著名瑞典考古学家,对北欧史前文化的研究成果丰硕。从蒙特留斯1869年从乌普萨拉大学毕
随着区域经济一体化的不断发展,近年来区域性组织的重要性明显提高了。目前上海合作组织是最具影响力的区域性组织之一。几年前上合组织成员国在关注安全问题的同时开始积极推动经济领域的发展。当前上海合作组织的发展取得了长足进步,但也面临着严峻挑战。“一带一路”倡议的顺利实施,可以为上海合作组织的发展注入新动力,为经贸合作提供新平台。本文对上海合作组织成员国经贸合作的现状和发展进行了较为深入的分析。全文一共分
广泛存在于自然界中的相变现象体现了相互作用与热涨落(量子涨落)之间的竞争。因此,相变点处通常存在着热力学量不连续或发散的奇异行为。格点玻色(自旋)模型既是典型的多体系统,
多目标优化问题的鲁棒解及其性质研究是多目标优化理论与方法研究领域中的一个重要研究方向.本文主要利用Clarke方向导数、Clarke次微分和线性化锥等工具研究了多目标优化问
在大学院校中,无论是哪个专业都会涉及到有关语文的学习内容,成为大学中不可或缺的一部分。随着计算机信息化的发展,网络成为人们生活中的重要部分,在这样的环境下出现了网络
本文主要研究在空间非齐性环境下,单一物种的总数量是如何依赖于随机扩散率的.主要研究的方程为Logistic方程.在文章[17]的定理2.4中作者讨论了当?=(0,1),其中a∈(0,1)以及τ
蛋白质组学(proteomics)试图从质和量两方面,描述不同条件下生物蛋白质的结构与表达。基于质谱(Mass Spectrometry,MS)的定量蛋白质组学是现阶段的一大研究热点。数据依赖采