论文部分内容阅读
环状RNA(Circular RNA,circRNA)作为RNA家族的后起之秀,越来越多的研究发现其参与很多生物学过程尤其是调控功能。研究还表明circRNA与多种人类疾病甚至一些复杂疾病相关。经实验验证的circRNA与疾病关联很少,仅通过生物学实验对其进行验证又是耗时耗力且不现实的。此外,鉴于现有方法的性能缺陷,发展更有效的预测circRNA与疾病相关性的计算方法值得进一步研究。目前一些研究表明,发生在circRNA上的单核苷酸多态性(Single nucleotide polymorphism,SNP)会造成circRNA的异常表达,从而导致疾病的发生,这暗示着SNP可能作为一种“中间因子”将circRNA与疾病关联起来。因此,考虑到circRNA上的SNP可能发挥重要作用,有必要专门针对circRNA上的SNP进行相关的分析与研究,探究SNP对circRNA行使生物学功能的影响。本文基于上述两方面展开研究,主要工作如下:(1)提出了一种预测circRNA与疾病关联的方法——SIMCCDA(Speedup inductive matrix completion for circRNA-disease associations prediction)。我们从三个数据库(circRNA disease、circ2Disease和circR2Disease)收集数据构建包含已知circRNA-疾病关联数据的数据集。基于这些已知的circRNA-疾病关联、circRNA序列相似性、疾病语义相似性和计算得到的高斯核相似性,经过主成分分析提取出主要特征向量后,我们再利用加速归纳矩阵完成方法建立模型。SIMCCDA通过在数据集中进行留一交叉验证,得到的ROC曲线下面积(AUC)为0.8465。该模型在预测circRNA与疾病相关性方面同样超过了其它同类型的方法。此外,本工作还开展了乳腺癌、胃癌和结直肠癌的病例研究,以进一步进行预测性能的评估。实验的所有结果均显示SIMCCDA具有可靠的预测能力。我们也希望SIMCCDA可用于促进该领域的进一步发展和生物医学研究人员的后续调查研究。本工作相关数据和代码可在https://github.com/bioinformaticsAHU/SIMCCDA上下载获得。(2)鉴定了人类circRNA相关SNP并且分析了其分布情况及对circRNA功能的潜在影响。实验从circBase、circBank数据库获得人类circRNA数据,SNP数据来自dbSNP数据库。通过比较circRNA和SNP的基因组坐标位点,我们在140,407个人类circRNA上一共识别到了40,409,038个SNP,通过对不同类型circRNA上的SNP数量分布进行差异分析发现,保守circRNA和基因内circRNA上不易发生突变。微小RNA(microRNA,miRNA)靶标预测工具用于评估SNP对circRNA-miRNA相互作用的影响,其中有23,945,458个SNP破坏了circRNA-miRNA相互作用,22,512,946个SNP创造了新的circRNA-miRNA相互作用。上述结果表明SNP会造成circRNA的功能缺失或获得,从而影响circRNA原有的生物学功能,这种影响可能导致circRNA与疾病之间产生关联。此外,针对circRNA-miRNA结合区域与侧翼区域SNP密度的差异分析发现,结合区域由于需要行使生物学功能而相对保守,其上不易发生突变。最后,实验利用GWAS Catalog数据库,通过阈值筛选在circRNA上获得了4,481个与疾病或性状显著相关的SNP,并且进一步筛选了代表一组SNP的标签SNP供研究人员进行后续生物实验。上述结果显示,circRNA相关的SNP发挥重要作用,为揭示疾病致病机制提供新角度。