论文部分内容阅读
MicroRNA(简称miRNA)是近年来新发现的一类非编码RNA(大约22个核苷酸),它在许多重要生命过程中起着关键的调控作用,人们对其在疾病诊断和治疗等方面的前景寄予厚望,关于miRNA的研究是当前生命科学领域最前沿的方向之一。HIV-1病毒是最常见的HIV病毒致病株,致死率极高;能在短时间内进化成许多不同的但又密切相关的变体,显示出不同的传染性和进化动力学,因此,HIV-1亚型的准确定位是开发有效疫苗的保证。本文主要研究了pre-microRNA(简称pre-miRNA)的计算识别问题,疾病关联的miRNA预测问题,及HIV的亚型分类问题,并取得了一些研究成果。主要包括以下三个内容:
(1)研究了pre-miRNA识别的高精度的计算方法。
区分pre-miRNA和长度相似的伪pre-miRNA是生命科学领域中的一个重要问题,它能帮助我们理解RNA的调控机制。目前,机器学习是最流行的识别pre-miRNA的方法。然而,大多数方法主要关注于pre-miRNA的二级结构信息,而忽略了序列的顺序信息和序列的进化信息。在这项研究中,开发了一种新的pre-miRNA识别方法,它从PSI-BLASTprofile中提取序列进化信息,使用Hilbert-Huang变换提取序列秩序信息,从小分子网络中获取二级结构信息,共提取了591个特征,这些特征描述了RNA的一级序列和二级结构的局部和全局信息,使用支持向量机作为分类器,经过最大相关最小冗余方法选择,获取了268个特征作为我们方法一MicroRNA-NHPred的最优特征集合,通过在更大、更严格的基准数据集上进行严格的交叉验证,发现MicroRNA-NHPred的性能优于该领域现有的最佳预测器,在同一基准数据集上能够达到94.83%的准确度;还在独立的数据集上进行了测试,结果表明,MicroRNA-NHPred在识别pre-miRNA方面优于目前两个最好的预测器。
(2)提出了基于层叠组合推荐方法的miRNA-疾病关联预测计算方法。
许多实验研究表明,miRNA的变化和失调可能导致许多复杂疾病的发生,特别是癌症。预测潜在的miRNA疾病关联不仅有助于探索疾病的发病机制,而且有助于了解生物学过程。然而,通过生物医学实验验证miRNA与疾病的相关关系是昂贵且耗时的。目前,科研工作者已经构建了多个数据库用于存储关于miRNA的有用数据,基于这些miRNA相关数据,研究者们设计了许多行之有效的计算方法精确地揭示了疾病相关的miRNA.
在这项研究中引入了一种新的计算模型,即异构网络上的可预测模型,用于识别潜在的miRNA疾病关联关系。首先,使用HMDDv2.0数据库中的数据,基于热传导和物质扩散的混合推荐算法先产生一种粗糙的推荐结果,粗略地计算了每一对miRNA-疾病关联的概率得分。然后,融合了其它的数据源,构建了一个异构网络,它由疾病相似网络、miRNA相似网络和miRNA-疾病关联网络组成。其中,miRNA-疾病关联二分网络根据第一步中的miRNA-疾病关联的概率得分构建;疾病相似网络由疾病功能信息构建;miRNA相似网络由以下生物学信息构建:miRNA家族信息、miRNA簇信息、实验验证的miRNA-靶标关联和疾病一miRNA相互作用信息。在异构网络上使用结构扰动方法,对miRNA与疾病的潜在关联进行精准地预测。我们的方法-CCRMDA,充分考虑了网络的结构和信息的传播,测试了15种疾病在不同方法上的预测结果,CCRMDA的平均AUC值高于一些目前己知的方法,表明CCRMDA可以作为一种有效的计算方法来提高疾病相关miRNA的预测准确度。此外,还对三种重要的人类癌症进行了案例研究,预测排在前50位的miRNA中有90%(乳腺癌)、96%(肝癌)和88%(肺癌)被最新的数据及文献所证实,这表明CCRMDA具有可靠的预测能力。
(3)提出了一种用于HIV-1型分类的基于位置加权的k-mers方法。
HIV-1在短时间内能够快速演化成许多密切相关的变体,显示出不同的传染性和进化动力学,为了能够开发有效的HIV疫苗,首先需要快速准确的描述HIV的演化关系。在这项研究中,使用HIV-1的全基因组序列,提出了一种新的、有效的分析HIV-1基因组演化关系的无序列比对方法:基于位置加权的k-mers方法(PWkmer)。首先将HIV全基因组序列转化成k-mers位置分布向量;然后,给出了确定最佳k值的方法;最终,由最佳k值的频率向量组成一个特征矩阵,这个特征矩阵能够反映病毒的不同亚型之间全基因组之间的发育关系。Robinson-Foulds距离方法和修改的自举法的验证从不同角度说明PWkmer方法关于HIV-1的亚型定位是可靠的。同时,也将该方法用在分析戊型肝炎病毒(HEV)的亚型定位上。进一步的实验结果表明PWkmer方法能够快速、有效地处理病毒学领域中的亚型演化问题。
(1)研究了pre-miRNA识别的高精度的计算方法。
区分pre-miRNA和长度相似的伪pre-miRNA是生命科学领域中的一个重要问题,它能帮助我们理解RNA的调控机制。目前,机器学习是最流行的识别pre-miRNA的方法。然而,大多数方法主要关注于pre-miRNA的二级结构信息,而忽略了序列的顺序信息和序列的进化信息。在这项研究中,开发了一种新的pre-miRNA识别方法,它从PSI-BLASTprofile中提取序列进化信息,使用Hilbert-Huang变换提取序列秩序信息,从小分子网络中获取二级结构信息,共提取了591个特征,这些特征描述了RNA的一级序列和二级结构的局部和全局信息,使用支持向量机作为分类器,经过最大相关最小冗余方法选择,获取了268个特征作为我们方法一MicroRNA-NHPred的最优特征集合,通过在更大、更严格的基准数据集上进行严格的交叉验证,发现MicroRNA-NHPred的性能优于该领域现有的最佳预测器,在同一基准数据集上能够达到94.83%的准确度;还在独立的数据集上进行了测试,结果表明,MicroRNA-NHPred在识别pre-miRNA方面优于目前两个最好的预测器。
(2)提出了基于层叠组合推荐方法的miRNA-疾病关联预测计算方法。
许多实验研究表明,miRNA的变化和失调可能导致许多复杂疾病的发生,特别是癌症。预测潜在的miRNA疾病关联不仅有助于探索疾病的发病机制,而且有助于了解生物学过程。然而,通过生物医学实验验证miRNA与疾病的相关关系是昂贵且耗时的。目前,科研工作者已经构建了多个数据库用于存储关于miRNA的有用数据,基于这些miRNA相关数据,研究者们设计了许多行之有效的计算方法精确地揭示了疾病相关的miRNA.
在这项研究中引入了一种新的计算模型,即异构网络上的可预测模型,用于识别潜在的miRNA疾病关联关系。首先,使用HMDDv2.0数据库中的数据,基于热传导和物质扩散的混合推荐算法先产生一种粗糙的推荐结果,粗略地计算了每一对miRNA-疾病关联的概率得分。然后,融合了其它的数据源,构建了一个异构网络,它由疾病相似网络、miRNA相似网络和miRNA-疾病关联网络组成。其中,miRNA-疾病关联二分网络根据第一步中的miRNA-疾病关联的概率得分构建;疾病相似网络由疾病功能信息构建;miRNA相似网络由以下生物学信息构建:miRNA家族信息、miRNA簇信息、实验验证的miRNA-靶标关联和疾病一miRNA相互作用信息。在异构网络上使用结构扰动方法,对miRNA与疾病的潜在关联进行精准地预测。我们的方法-CCRMDA,充分考虑了网络的结构和信息的传播,测试了15种疾病在不同方法上的预测结果,CCRMDA的平均AUC值高于一些目前己知的方法,表明CCRMDA可以作为一种有效的计算方法来提高疾病相关miRNA的预测准确度。此外,还对三种重要的人类癌症进行了案例研究,预测排在前50位的miRNA中有90%(乳腺癌)、96%(肝癌)和88%(肺癌)被最新的数据及文献所证实,这表明CCRMDA具有可靠的预测能力。
(3)提出了一种用于HIV-1型分类的基于位置加权的k-mers方法。
HIV-1在短时间内能够快速演化成许多密切相关的变体,显示出不同的传染性和进化动力学,为了能够开发有效的HIV疫苗,首先需要快速准确的描述HIV的演化关系。在这项研究中,使用HIV-1的全基因组序列,提出了一种新的、有效的分析HIV-1基因组演化关系的无序列比对方法:基于位置加权的k-mers方法(PWkmer)。首先将HIV全基因组序列转化成k-mers位置分布向量;然后,给出了确定最佳k值的方法;最终,由最佳k值的频率向量组成一个特征矩阵,这个特征矩阵能够反映病毒的不同亚型之间全基因组之间的发育关系。Robinson-Foulds距离方法和修改的自举法的验证从不同角度说明PWkmer方法关于HIV-1的亚型定位是可靠的。同时,也将该方法用在分析戊型肝炎病毒(HEV)的亚型定位上。进一步的实验结果表明PWkmer方法能够快速、有效地处理病毒学领域中的亚型演化问题。