论文部分内容阅读
在基因的表达关系分析中,DNA甲基化和miRNA在基因的特异性表达以及癌症的发生方面发挥着独特的作用。本文分析了当前基因表达关系分析中的关键算法和并行优化问题,并设计和实现了WGBS(Whole Genome Bisulfite Sequencing,全基因组亚硫酸氢盐测序)分析软件Hint-Hunt、P-Hint-Hunt、BSMAPOS以及miRNA正向调控基因表达关系分析方法MEGEAM。通过实验表明,我们研发的软件和方法能达到预期的目的并取得显著的并行加速效果,相关软件已经在复旦大学医学院得到实际应用。首先,在全基因组DNA甲基化的研究方面,WGBS分析是其中最主要的内容之一,针对WGBS中传统的双端同步法比对的匹配率较低的问题,新的双端异步法在原理上进行了改进,但该方法测序产生的双端异步数据无法用已有的软件进行分析。因此,本文分析了双端异步数据的特点,以及新软件的功能和效能需求,利用改进的Smith-Waterman算法进行最优相似性的序列比对,并进一步实现最优筛选、得分共享、假阳性识别等功能,研发了处理双端异步数据的软件Hint-Hunt。测试表明,Hint-Hunt可以正确地计算出全基因组DNA甲基化水平,且比对的准确率从以往的75%左右提高到了约80%。其次,目前测序数据产出速度的增长已超过摩尔定律,串行软件或面向单机的多线程软件无法满足快速处理的要求。本文一方面对Hint-Hunt软件进行了多线程和多进程的深度并行优化,并行后的软件P-Hint-Hunt在测试中具有良好的稳定性、可扩展性和接近线性的加速比;另一方面,为充分分析利用当前数据库中已有的双端同步数据,针对目前广泛使用的BSMAP存在的局限和问题进行了多进程优化,实际测试中采用32个节点时,优化后的BSMAPOS可将原来单样本数据的处理时间由近43小时压缩到2.5小时左右。最后,为了研究miRNA正向调控基因表达的作用关系,本文从公共数据库TCGA中已有的miRNA和基因的表达量数据出发,采用基于海量数据构建共表达网络的策略,设计和实现了MEGEAM分析方法。我们利用MEGEAM方法对370个肺癌样本的数据进行分析,得到了与肺癌具有强相关性的6个高价值miRNA和5个重要基因,其中近一半的结果在已有的医学或生物学文献中得到验证,为肺癌相关的联合用药提供了部分依据。