论文部分内容阅读
前列腺癌是男性生殖系统最常见的恶性肿瘤之一,其发病率随着年龄的增长而增长。虽然我国的发病率相对于欧美甚至其他亚洲地区发病率还比较低,但近年来一直呈上升趋势。且前列腺癌的发病率和死亡率仅次于肺癌,位居癌症死亡的第二位。因此,开展前列腺癌的相关深入研究对于男性的生命及健康具有重要的意义。 本研究以两组由NCBI数据库公布的正常前列腺及前列腺癌组织的转录组测序(RNA sequencing,RNA-seq)数据为样本,应用生物信息学方法对其进行转录本的重建和长链非编码RNA(long non-coding RNA,lncRNA)的预测,然后再对预测所得的结果进行相关的一些分析。 首先使用基因引导法对样本的转录组进行重建。将原始序列用TopHat映射到人类参考基因组,其回贴成功率约为76.9%。然后使用Cufflinks套装对读段进行装配、整合、注释以及分类,共得到157926个转录本。 其次对转录组重建的结果进行lncRNA的预测。以lncRNA的基本定义(转录本长度大于200nt以及开放阅读框小于300nt)为第一次的过滤条件,得到6941个lncRNA的候选转录本;然后利用非编码识别软件PhyloCSF做第二次过滤,得到1776个转录本;最后使用蛋白质数据库Pfam过滤,最终得到1080个预测lncRNA。 针对预测得到的结果,本研究再利用Cuffdiff和WGCNA分别对其进行差异表达分析和基因共表达网络分析,得到5个上调、7个下调的差异表达基因、3个差异表达的lncRNA以及2个与前列腺癌具有显著相关性的基因模块。根据该结果我们发现并猜测差异表达的lncRNA RP11-267A15.1与前列腺癌相关,且很可能产生抑制作用。 另外,本研究还对包括预测lncRNA在内的所有mRNA进行了差异表达分析,得到1715个上调、1162个下调差异表达基因;然后对以上差异表达结果进行基因功能注释分析以及通路分析,根据结果我们猜测,这些差异基因可能与单多细胞生物进程、系统开发、细胞分化等基因功能的改变有关。 最后通过R语言程序对以上所有定量结果进行可视化,挑选出有意义的结果及其他信息。 本研究应用生物信息学方法对正常前列腺组织以及前列腺癌组织的RNA-seq数据进行lncRNA的预测以及相关的分析,并对预测lncRNA中的差异表达基因、基因共表达网络分析得到的基因模块以及mRNA中差异表达基因的基因功能注释、代谢通路结果进行了详细的阐述,为前列腺癌的研究提供了有力的数据基础,以期为进一步确定前列腺癌的特异性基因提供了新的理论基础。