论文部分内容阅读
癌症是人类健康的头号杀手,各国的科学家和医疗工作者长期以来一直致力于探讨和研究癌症发生、发展的机制,试图找到预防、诊断、监控和治疗肿瘤的有效方法。在生命科学中,分析DNA、RNA、蛋白质的功能一向是非常重要的事情。自从2006年开始的新一代测序技术使得基因组测序成本大幅降低,各国纷纷启动了癌症基因组计划,产生了大量的癌症基因组数据(如TCGA),提供了越来越多癌症的基因突变、表达图谱等,这为全面研究癌症提供了更有了数据支持。随着数据量变得越来越大,纯粹依靠人工分析早已变得不切实际,因此人们必须采用计算机技术对大量的生物数据进行分析处理。非编码RNA是指各种不翻译成蛋白质的RNA分子。其中长链非编码RNA(LongNoncoding RNA,即LncRNA)指的是长度大于200个核苷酸的非编码RNA。由于它们不直接参与编码蛋白质,因此从前人们认为非编码RNA是没有意义的,但是随着人们对非编码基因功能认识的逐渐深入,通过对机体各种生理和病理过程的观察,逐渐发现非编码基因承载了越来越多的生物学功能,而且与一些疾病的发生、发展密切相关。它们在不同的组织,健康的人体或癌症的人体,甚至幼年老年的表达都不一定一样,因此,研究功能尚不十分明确的长链非编码RNA很有必要。为此,我们要在系统角度研究与肿瘤相关的lncRNA的差异表达及功能推断。随着大量lncRNA被鉴定,研究者发现GEO中exon array中的一些探针被错误的标记为mRNA,其实际对应着lncRNA。这与高花费的RNA-seq技术和设计专门的lncRNA芯片相比,GEO中存在着大量的肿瘤相关的exon array的芯片数据,从中我们可以快速推断部分lncRNA在不同肿瘤中的表达,以及lncRNA与蛋白质之间的共表达,这为在系统水平上研究肿瘤相关的lncRNA的差异表达及功能推断提供了丰富的数据来源。本论文的主要工作是先从GEO的数据库中下载Human Genome U133Plus2Array平台的大量的人类肿瘤的exon array数据,论文的研究数据分成三大类,一类是包含儿童与成人的恶性胶质瘤样本集,一类包含16组不同癌症的exon array数据,一类是包含结肠癌四个发展阶段的样本集。然后通过对其exon array中的探针进行重新分析,将实际对应lncRNA的探针重新注释,得到部分的lncRNA表达和编码基因表达,然后根据这些表达数据计算基因在疾病组与对照组间表达数据的Fold Change,即倍数变化,以及其表达变化的P-value,得到的Fold Change大于2或小于0.5且P-value小于0.05的基因可被认为有显著的表达差异性,接下来运用Pearson方法和Spearman方法对筛选出来的这些基因进行相关性分析,进一步构建lncRNA与相关联编码基因的共表达网络,然后利用GO富集分析和pathway富集分析,推断lncRNA可能的GO生物过程和参与的KEGG通路,从而推断与肿瘤相关的LncRNA的具体生物学功能,为肿瘤的机理研究推断提供新的突破点。