论文部分内容阅读
摘要:miRNA是一种具有内源性的小分子,能在翻译后水平上对生命活动进行调控。该文在比较了多种预测方法后,提出在基于随机游走的前提下,寻找蛋白质驱动下的miRNA与疾病致病基因关联的方法,计算相关因素的聚类作用,从而判定人体由正常转向非疾病突变过程中的因素。
关键词:蛋白质;miRNA;疾病
中图分类号:TP301
文献标识码:A
文章编号:1009-3044(2017)10-0147-02
经研究miRNA与其他一般基因相比具有自身特点,结合当前累计的数据及miRNA自身的特点,从而构建miRNA生物网络。目前基于蛋白质网络来寻找miRNA和疾病间关联的研究还是新领域,但越来越多的研究显示miRNA与肿瘤及其他多种疾病的产生、扩散有密切的关系。
1.构建miRNA-protein(M-P)相关的网络图
首先,要构建M-P网络,我们利用3个已知的M-P关联关系的数据源,其中有2012年Craft等人。基于miRNA靶基因的数据挖掘方法的数据集;另外有2010年Betel等人的MiRada5版和2011年Garcia等人的TargertScan6.2版数据集,其中提出了两种基于miRNA靶基因预测方法。其次,为了便于不同数据源之间数据的比较与整合,我们采用Francechi等人提供的miRNA串别名库,将所有miRNAs与MiRNA库标记物以及miR-NA靶基因与proteinprotein标记物做比对。同时,提出一组高效的方法,标记miRNA(M)与proteinfPl之间的关联度,记为T(M,P)。除此之外,利用两者的关联分值,对MiRanda和Target-san数据库进行统计。相应的,在给定小数据集中,MiRanda和Targetsan对于相同的miRNA,用单一的miRNA进行多目标预测的过程中,得到相关的预测分值,通过分值表我们构建M-P相关的网络图。
2.构建protein-disease(P-D)相关的网络图
构建P-D关联图将有利于预测miRNA-disease关联的研究,我们从diseases数据库下载完整的疾病数据。为了获得的P-D的关系网络,2012 schriml等人从disease本体数据库确定疾病的名称,2013年Franceschi等人从miRNA串数据库标注人类蛋白质的名字。P-D相关度计算具体如下,提出了基于文献挖掘的相关值方法,评价体系充分考虑,miRNA在一种疾病中单独出现以及多个疾病中同时出现的几率,从而赋予不同的权值。因此,提出一个加权记数c(P,D)方法,计算每一对P-D之间,P与D之间的关系,公式如下式(1):
3.构建miRNA-disease(M-D1相关的网络图
在构建了P-D网络的基础上,传统的M-D网络构建方法,是通过对基因调控的网络设定相关阈值,计算基因之間的两两相关性,基因间两两距离大于初始设定阈值的,可以确定其有l条关联边。但此类方法构建的网络中,往往存在假相关性,从而导致假边的产生,对识别结果造成误差。因此,本文利用生物信息学软件(Cytoscape),对Ming Lu采用文献挖掘法识别到的人类miRNA相关疾病数据库计算,方法结合假设检验和信号通路两种途径,把数据库中的每个节点标注为一个miRNA,两两miRNA之间的连线表示通过Fisher假设检验的miRNA对,或者是拥有共同信号通路的miRNA对,从而构建了miRNA相关的疾病复杂的关系网络。
在网络构建过程中,我们发现,肿瘤疾病关联的相似的miRNA对,心血管疾病关联的相似的miRNA对,会各自倾向于连接到一起,即MiRNA在相似疾病内部,有着比较相似的关系,比如,比如,miR-195在在所有有关心血管疾病中的文献中均上调,miR-125a在所有有关肿瘤的文献中均下调;而miRNA在不同的疾病之间关系又不同。
为了更直观的展现同一分类组中miRNA之间的相互联系,利用Fisher方法对相互作用miRNA数据采取可视化分析,基于信号通路及假设检验的结果建立的双向图,分别构建模型以癌细胞、疾病细胞、正常细胞和全部细胞为组群建立miRNA相互作用的关系网络,在模型聚类过程中,容易发现新的相互作用关系,从而为后期研究miRNA可能参与的共同信号通路提供参考。
4.提出基于随机游走预测miRNA-disease关联度的新方法
提出随机游走的聚类分析方法,对miRNA-disease关联进行预测。方法的基本思路是从图中的一个或多个顶点出发,开始遍历M-D图,在图中的任意一个顶点出发,假设能随机跳转到图中的任何一个顶点的概率为r,则转移到该顶点的邻居顶点的概率1-r,称r为随机跳转概率。
随机游走计算的公式如下式(3):
式中,r为随机游走的概率,s(I)表示t时刻从给定点出发路径情况,M为转移概率矩阵。在设计随机游走的矩阵时,,对与疾病D相关的miRNA结点数据进行预处理,其中包括获取已知miRNA与疾病关联关系,进而计算miRNA相互间的相似度,并构建miRNA功能相似性网络。即如果已知M结点与疾病D关联,则让其它M结点转移到该结点的几率就较高。反之如果M结点与疾病关联不可知,则让其它M结点转移到它的几率就较低。因此,利用随机游走方法,到达与疾病d关联的已知miRNA结点其几率会更高,从而推进M游走时到达与邻近的结点的几率。因此,那些有较高跳转几率的miRNA结点,便可推选作为与潜在疾病D关联的miRNA候选。
从目前来看,研究miRNA与疾病相关联的数据,据我们了解到的除了与已知与疾病D关联的相应miRNA外,还有未被发现的miRNA结点与疾病D相关联。如果miRNA网络中共有P个miRNA结点,设置向量Q=(1/P,…,1/P)T,rQ就表示在游走过程中,由指定点以概率r随机转移到其它M结点的几率。将所有M结点的游走几率,依据预测分之进行排序,则具有较高排序值的未知M节点,可以推选作为预测的D相关M候选结点,从而构建M-D网络图。
5.小结
利用随机游走的方法,对Craft等多个数据库进行KEGG富集通路上的游走,统计通路上P-M-D之间的关联程度,用P-Value值来表示,从而获得每个疾病对之间的相似性,而后计算miRNA关联的疾病之间的关联度,从研究数据来看,垓方法对网络的构建,降低了M-D之间识别的错误率。但研究目前只选用了个别数据库,还缺少对实际个案的应用,后续要将研究方法和结论广泛验证。
关键词:蛋白质;miRNA;疾病
中图分类号:TP301
文献标识码:A
文章编号:1009-3044(2017)10-0147-02
经研究miRNA与其他一般基因相比具有自身特点,结合当前累计的数据及miRNA自身的特点,从而构建miRNA生物网络。目前基于蛋白质网络来寻找miRNA和疾病间关联的研究还是新领域,但越来越多的研究显示miRNA与肿瘤及其他多种疾病的产生、扩散有密切的关系。
1.构建miRNA-protein(M-P)相关的网络图
首先,要构建M-P网络,我们利用3个已知的M-P关联关系的数据源,其中有2012年Craft等人。基于miRNA靶基因的数据挖掘方法的数据集;另外有2010年Betel等人的MiRada5版和2011年Garcia等人的TargertScan6.2版数据集,其中提出了两种基于miRNA靶基因预测方法。其次,为了便于不同数据源之间数据的比较与整合,我们采用Francechi等人提供的miRNA串别名库,将所有miRNAs与MiRNA库标记物以及miR-NA靶基因与proteinprotein标记物做比对。同时,提出一组高效的方法,标记miRNA(M)与proteinfPl之间的关联度,记为T(M,P)。除此之外,利用两者的关联分值,对MiRanda和Target-san数据库进行统计。相应的,在给定小数据集中,MiRanda和Targetsan对于相同的miRNA,用单一的miRNA进行多目标预测的过程中,得到相关的预测分值,通过分值表我们构建M-P相关的网络图。
2.构建protein-disease(P-D)相关的网络图
构建P-D关联图将有利于预测miRNA-disease关联的研究,我们从diseases数据库下载完整的疾病数据。为了获得的P-D的关系网络,2012 schriml等人从disease本体数据库确定疾病的名称,2013年Franceschi等人从miRNA串数据库标注人类蛋白质的名字。P-D相关度计算具体如下,提出了基于文献挖掘的相关值方法,评价体系充分考虑,miRNA在一种疾病中单独出现以及多个疾病中同时出现的几率,从而赋予不同的权值。因此,提出一个加权记数c(P,D)方法,计算每一对P-D之间,P与D之间的关系,公式如下式(1):
3.构建miRNA-disease(M-D1相关的网络图
在构建了P-D网络的基础上,传统的M-D网络构建方法,是通过对基因调控的网络设定相关阈值,计算基因之間的两两相关性,基因间两两距离大于初始设定阈值的,可以确定其有l条关联边。但此类方法构建的网络中,往往存在假相关性,从而导致假边的产生,对识别结果造成误差。因此,本文利用生物信息学软件(Cytoscape),对Ming Lu采用文献挖掘法识别到的人类miRNA相关疾病数据库计算,方法结合假设检验和信号通路两种途径,把数据库中的每个节点标注为一个miRNA,两两miRNA之间的连线表示通过Fisher假设检验的miRNA对,或者是拥有共同信号通路的miRNA对,从而构建了miRNA相关的疾病复杂的关系网络。
在网络构建过程中,我们发现,肿瘤疾病关联的相似的miRNA对,心血管疾病关联的相似的miRNA对,会各自倾向于连接到一起,即MiRNA在相似疾病内部,有着比较相似的关系,比如,比如,miR-195在在所有有关心血管疾病中的文献中均上调,miR-125a在所有有关肿瘤的文献中均下调;而miRNA在不同的疾病之间关系又不同。
为了更直观的展现同一分类组中miRNA之间的相互联系,利用Fisher方法对相互作用miRNA数据采取可视化分析,基于信号通路及假设检验的结果建立的双向图,分别构建模型以癌细胞、疾病细胞、正常细胞和全部细胞为组群建立miRNA相互作用的关系网络,在模型聚类过程中,容易发现新的相互作用关系,从而为后期研究miRNA可能参与的共同信号通路提供参考。
4.提出基于随机游走预测miRNA-disease关联度的新方法
提出随机游走的聚类分析方法,对miRNA-disease关联进行预测。方法的基本思路是从图中的一个或多个顶点出发,开始遍历M-D图,在图中的任意一个顶点出发,假设能随机跳转到图中的任何一个顶点的概率为r,则转移到该顶点的邻居顶点的概率1-r,称r为随机跳转概率。
随机游走计算的公式如下式(3):
式中,r为随机游走的概率,s(I)表示t时刻从给定点出发路径情况,M为转移概率矩阵。在设计随机游走的矩阵时,,对与疾病D相关的miRNA结点数据进行预处理,其中包括获取已知miRNA与疾病关联关系,进而计算miRNA相互间的相似度,并构建miRNA功能相似性网络。即如果已知M结点与疾病D关联,则让其它M结点转移到该结点的几率就较高。反之如果M结点与疾病关联不可知,则让其它M结点转移到它的几率就较低。因此,利用随机游走方法,到达与疾病d关联的已知miRNA结点其几率会更高,从而推进M游走时到达与邻近的结点的几率。因此,那些有较高跳转几率的miRNA结点,便可推选作为与潜在疾病D关联的miRNA候选。
从目前来看,研究miRNA与疾病相关联的数据,据我们了解到的除了与已知与疾病D关联的相应miRNA外,还有未被发现的miRNA结点与疾病D相关联。如果miRNA网络中共有P个miRNA结点,设置向量Q=(1/P,…,1/P)T,rQ就表示在游走过程中,由指定点以概率r随机转移到其它M结点的几率。将所有M结点的游走几率,依据预测分之进行排序,则具有较高排序值的未知M节点,可以推选作为预测的D相关M候选结点,从而构建M-D网络图。
5.小结
利用随机游走的方法,对Craft等多个数据库进行KEGG富集通路上的游走,统计通路上P-M-D之间的关联程度,用P-Value值来表示,从而获得每个疾病对之间的相似性,而后计算miRNA关联的疾病之间的关联度,从研究数据来看,垓方法对网络的构建,降低了M-D之间识别的错误率。但研究目前只选用了个别数据库,还缺少对实际个案的应用,后续要将研究方法和结论广泛验证。