论文部分内容阅读
随着我国癌症患病率和死亡人数的逐年提升,癌症的预防和治疗已成为我国当前亟待解决的问题。相关研究表明,一类单链非编码RNA(MicroRNAs,miRNA)在癌症发生和发展过程中扮演了重要的角色。因此,识别癌症相关的miRNA是研究miRNA在癌症中具体作用机制、寻找癌症诊断标志物和治疗靶标的关键环节。基于生物信息学计算的癌症相关miRNA识别方法,所具有的低成本和高效率的优势,是传统的基于生物实验的方法无法企及的。目前,研究人员已提出很多识别癌症相关miRNA的计算方法,这些方法存在很多问题。例如,(1)基于统计学的差异表达分析,致使假阳性率非常高;(2)基于miRNA、疾病相似性,而这种相似性需要进一步考究;(3)基于分类模型的训练,却未考虑缺乏负样本的问题;(4)基于miRNA-基因关联分析,未考虑多种影响因素和庞大的计算规模的问题。针对已有方法的分析,本文围绕癌症相关miRNA的识别方法进行了研究,提出了三种癌症相关miRNA的识别方法,主要工作如下:(1)提出了整合多数据源的识别方法。整合基因、蛋白质、miRNA和驱动基因四种数据源,有效结合了这四种数据集对应的生物特征,解决了已有方在法基因和蛋白质结合过程中未考虑非编码基因的因素,并第一次在癌症相关miRNA识别过程中引入了驱动基因信息。实验结果表明,该方法相比原有的方法具有更好的识别效果和更高的运行效率。(2)提出了基于miRNA-基因子网络的识别方法。通过整合基因和miRNA表达数据和miRNA-靶基因数据,有效解决了miRNA的组织特异性带来的问题和单一数据导致的方法适用性过低的问题。从miRNA共调节的角度,提出通过模糊聚类对整个miRNA-基因调控网络进行划分,解决了计算规模过大和冗余数据繁杂的问题。在四种实际癌症数据集上的实验结果表明,与已有的方法相比,该方法比已有方法具有更高的识别准确率。(3)提出了一种新的基于异常通路的识别方法。一方面,整合基因和miRNA表达数据和miRNA-靶基因数据,结合两种数据的优点;另一方面,通过通路内的基因的差异表达分析,识别异常通路。通过miRNA与异常通路中的基因的相关性分析,获取miRNA与异常通路的关联,并进一步识别癌症相关miRNA。四种癌症数据集上的实验结果表明,与原有的基于靶基因富集于异常通路的识别方法以及其它方法相比,所提出的方法在多种评价指标上具有显著的优势。