论文部分内容阅读
非编码序列RNA不能被翻译生成蛋白质序列,但非编码RNA可单独行使调控功能或与其他功能性生物大分子结合行使作用,具有非常重要的生物学功能。随着高通量测序技术的发展,产生了大量的非编码RNA测序数据,针对这些数据展开研究能够更好地揭示其生物学意义。针对海量的高通量非编码RNA测序数据的生物信息学分析是近年来的研究热点,相关的分析方法尚需进一步完善。本研究主要针对高通量测序技术下对非编码RNA分析的模型建立、流程构建、方法优化等方面开展了较为系统的研究工作,并探讨了非编码RNA可能的进化机制。本研究取得的主要成果为:(1)开发了一套基于SOLiD测序平台的小RNA测序数据的分析流程,可针对色域编码的测序结果进行分析及可视化显示,能够比较样本间小RNA表达量的差异及对新的miRNA进行预测。该流程已成功地应用于孕妇子痫相关的miRNA标记基因的研究。(2)在高通量测序数据中存在miRNA的异构体现象,这些异构体可能具有重要的生物学功能。为了评估miRNA的异构水平,本论文提出了一种基于熵的方法用于研究高通量小RNA测序数据中miRNA异构体,发现异构水平比较高的ImiRNA的靶基因能富集到肿瘤相关的功能上,说明这些异构体并不是随机产生的。将这个模型应用于阿尔兹海默症的高通量测序数据中,发现有47个miNRA基因的异构水平在该疾病的早期和晚期之间存在显著的差异,其中17个是已知的疾病相关的miRNA (P<1.59e-07)。与其miRNA表达量差异相比,发现基于miRNA 5’端异构的熵差异的方法在阿尔兹海默症中表现出更加稳定的结果;(3)为了研究高通量转录组数据分析过程中出现的无法比对到基因组的高质量的序列,本论文设计了一套流程来分析前列腺癌中这些未知的存在差异表达的转录片段,排除可能的污染和低复杂度序列后,发现了214个可能与疾病相关的长度大于200个碱基的片段,通过一个非比对的模型来对这些片段是否是非编码RNA进行快速判断;(4)微生物群落的鉴定主要是通过高通量测序16S rRNA的高变区来进行。这需要设计引物对其高变区进行扩增,由于读长短导致很多物种不能被鉴定到属水平。本论文提出通过属特异性片段来检测特定属的方法,探讨适合短读长高通量测序数据中检测出更多的属水平物种的策略。鉴于各个属的属特异性区域分布不同,通过一对引物进行扩增通常存在很大的偏好,而使用多个区域则可以明显提高检测微生物群落的能力,且有更多物种能被鉴定到属水平。(5)本论文还对miRNA和长链非编码RNA的起源进行了探讨。通过序列相似性比对的方法在古菌种找到了56 miRNA的前体同源序列,及通过二项式分布模型在古菌中找到了2649种潜在的miRNA种子序列,这些种子序列与真核生物对应的种子序列存在明显的交集,研究表明在古菌与真核生物进化分歧之前就可能已经存在miRNA。首次在全基因组范围内分析了动物基因组序列的对称性特征,发现链内对称偏性的增加伴随着功能性非编码RNA的增加,该研究在一定程度上解释了功能性非编码RNA的数量随着物种复杂性增加而增加的现象。