论文部分内容阅读
摘要:由于miRNA的复杂性,只在调控时袁征出来,因此对于miRNA的识别工作难度很大。事实上,在miRNA分类问题中,有多种分类方法,如支持向量机、马尔科夫链模型、非负矩阵分解、KNN算法等,该文对前期研究报告中用到的分类方法做比较,找出各类方法的特点及使用环境,为后续研究做准备。
关键词:miRNA;支持向量机;马尔科夫链模型;非负矩阵分解;KNN算法
miRNA是真核生物中的一组内源性非编码序列RNA分子,个体很小,只有不到24m,因为难被发现,所以也被称为真核生物体内的“暗物质”。但它能在细胞发育、生物细胞的凋亡与增殖,器官形成过程中起重要作用,具备调控功能。因此,miRNA的研究对疾病防治以及生物进化等都具有重要意义。也因此有越来越多的生物学家对miRNA在各种疾病的诊断和治疗等方面的应用寄予了极高的期望。对于miRNA的识别主要有两个阶段:寻找有效的特征选择方法一寻找分类效率高的分类器。以下就对目前研究识别工作的分类器进行一一比较。
1支持向量机(SVM)方法
发现miRNA的方法主要有计算预测和eDNA克隆测序两种,支持向量机(SVM)法已经被广泛应用在miRNA预测中,通过合理的特征提取与编码,SVM分类器可以达到较高的分类精度,但以往的模型通过单物种的miRNA序列或前体序列建立模型,在对其他物种的预测中分类精度往往会有所降低,并且没有形成一套从前体结构预测到成熟miRNA预测的完整流程。2012年孙超等人基于支持向量机分类算法的番茄miRNA预测,利用SVM方法构建sly_pre_SVM模型和sly_SVM模型,并以已发现的miRNA特征为基础,预测番茄前体miRNA序列和成熟miRNA序列。研究miRNA特征向量的编码、miRNA特征选择和参数的优化。从测试集的分类精度、敏感性和特異性上看,分别达到99.69%、100%和99.66%。
另外,马静等人基于数据不平衡的方法预测miRNA,文中提出了综合SVM-RFE和RelieW两种特征的选择方法,在每次迭代过程中,参照特征的评价标准,利用ReliefF算法计算的特征权重值,同时,利用SVM-RFE算法删除冗余特征,并对特征子集的样本集合使用K折交叉验证方法,最终从准确率最高的集合中选择最优特征子集。
2隐马尔科夫链(HMM)模型
高松等人研究指出,传统的HMM方法最大的优点是有可靠的概率统计理论,但也存在缺陷,如一阶HMM无法表示远距离的依赖关系,从而忽略了部分有用的统计特征。因此,他们提出采用高阶HMM方法,并对方法做出改进,提出“前向一后向”算法和Baum-Weleh訓练算法使得模型更易于理解和实现。
刘丽云等人研究针HMM,指出高阶马尔科夫链模型存在维数多和存储量大的缺点,并提出可变长的马尔科夫链模型,用于预测可趋近交互位点的算法。该算法通过比对原miRNA和可趋近性的miRNA位点,从而形成具有二聚体的新序列。新序列中对不同的碱基配采用不同的符号,以代表不同类型。再用可变长HMM模拟新序列,并在概率后缀树上加入平滑化技术改进模型。通过比较正、负分类上新序列概率的大小判断新序列所属类别。
Wei Shen等人提出基于二级结构模式的固定阶马尔可夫模型方法对mieroRNA进行预测,建立了一个阀杆凸出间隙符号描述发夹的二级结构,成功地从发夹序列直接实现了成熟miRNAs的全功能识别。
3非负矩阵分解算法
2013年尤燕玲等人利用非负矩阵分解算法和粒子群优化算法对miRNA与基因的互作关系展开了深入的探索。他们的研究得出了50对新的miRNA与基因互作关系对,并对这50个关系对的生物学意义做部分阐述。具体做法是:在给定的基因与基因互作数据,及已知的miRNA与基因互作关系上,同时用收敛图检测算法的收敛有效性;同时,考虑到非负矩阵分解算法在对miRNA与基因整合时,并没有注意到基因与miRNA互作关系的生物学统计意义。因此,引入粒子群优化算法,对非负矩阵分解算法中的目标函数参数值进行优化,并以miRNA与基因数据矩阵的皮尔森系数值作适应值。
4混合分类器
2016年梅端等人提出一种改进的SVM算法对miRNA表达谱的分析,文章提出了一种新的数据挖掘算法——SVM-KNN.该算法的思想是:首先采用统计量法对该数据集进行特征初选,其次将融合了支持向量机和k-最近邻判别法思想的SVM-KNN算法作为分类器,最后输出分类结果,SVM-KNN分类器的分类效果,比分另4单独运行SVM-KNN分类器和SVM-KNN分类器的分类效果都要好㈣。
5小结
miRNA的研究仍有许多问题需要解决,目前所采用的支持向量机、马尔科夫链模型、非负矩阵分解、KNN算法等热点分类方法,在识别过程中起着重要作用,但仍然有很多不足,如数据的单一值特征选取,生物数据库的基因组、代谢基因组、蛋白质组数据多特征分类,还有很大的研究空间。
关键词:miRNA;支持向量机;马尔科夫链模型;非负矩阵分解;KNN算法
miRNA是真核生物中的一组内源性非编码序列RNA分子,个体很小,只有不到24m,因为难被发现,所以也被称为真核生物体内的“暗物质”。但它能在细胞发育、生物细胞的凋亡与增殖,器官形成过程中起重要作用,具备调控功能。因此,miRNA的研究对疾病防治以及生物进化等都具有重要意义。也因此有越来越多的生物学家对miRNA在各种疾病的诊断和治疗等方面的应用寄予了极高的期望。对于miRNA的识别主要有两个阶段:寻找有效的特征选择方法一寻找分类效率高的分类器。以下就对目前研究识别工作的分类器进行一一比较。
1支持向量机(SVM)方法
发现miRNA的方法主要有计算预测和eDNA克隆测序两种,支持向量机(SVM)法已经被广泛应用在miRNA预测中,通过合理的特征提取与编码,SVM分类器可以达到较高的分类精度,但以往的模型通过单物种的miRNA序列或前体序列建立模型,在对其他物种的预测中分类精度往往会有所降低,并且没有形成一套从前体结构预测到成熟miRNA预测的完整流程。2012年孙超等人基于支持向量机分类算法的番茄miRNA预测,利用SVM方法构建sly_pre_SVM模型和sly_SVM模型,并以已发现的miRNA特征为基础,预测番茄前体miRNA序列和成熟miRNA序列。研究miRNA特征向量的编码、miRNA特征选择和参数的优化。从测试集的分类精度、敏感性和特異性上看,分别达到99.69%、100%和99.66%。
另外,马静等人基于数据不平衡的方法预测miRNA,文中提出了综合SVM-RFE和RelieW两种特征的选择方法,在每次迭代过程中,参照特征的评价标准,利用ReliefF算法计算的特征权重值,同时,利用SVM-RFE算法删除冗余特征,并对特征子集的样本集合使用K折交叉验证方法,最终从准确率最高的集合中选择最优特征子集。
2隐马尔科夫链(HMM)模型
高松等人研究指出,传统的HMM方法最大的优点是有可靠的概率统计理论,但也存在缺陷,如一阶HMM无法表示远距离的依赖关系,从而忽略了部分有用的统计特征。因此,他们提出采用高阶HMM方法,并对方法做出改进,提出“前向一后向”算法和Baum-Weleh訓练算法使得模型更易于理解和实现。
刘丽云等人研究针HMM,指出高阶马尔科夫链模型存在维数多和存储量大的缺点,并提出可变长的马尔科夫链模型,用于预测可趋近交互位点的算法。该算法通过比对原miRNA和可趋近性的miRNA位点,从而形成具有二聚体的新序列。新序列中对不同的碱基配采用不同的符号,以代表不同类型。再用可变长HMM模拟新序列,并在概率后缀树上加入平滑化技术改进模型。通过比较正、负分类上新序列概率的大小判断新序列所属类别。
Wei Shen等人提出基于二级结构模式的固定阶马尔可夫模型方法对mieroRNA进行预测,建立了一个阀杆凸出间隙符号描述发夹的二级结构,成功地从发夹序列直接实现了成熟miRNAs的全功能识别。
3非负矩阵分解算法
2013年尤燕玲等人利用非负矩阵分解算法和粒子群优化算法对miRNA与基因的互作关系展开了深入的探索。他们的研究得出了50对新的miRNA与基因互作关系对,并对这50个关系对的生物学意义做部分阐述。具体做法是:在给定的基因与基因互作数据,及已知的miRNA与基因互作关系上,同时用收敛图检测算法的收敛有效性;同时,考虑到非负矩阵分解算法在对miRNA与基因整合时,并没有注意到基因与miRNA互作关系的生物学统计意义。因此,引入粒子群优化算法,对非负矩阵分解算法中的目标函数参数值进行优化,并以miRNA与基因数据矩阵的皮尔森系数值作适应值。
4混合分类器
2016年梅端等人提出一种改进的SVM算法对miRNA表达谱的分析,文章提出了一种新的数据挖掘算法——SVM-KNN.该算法的思想是:首先采用统计量法对该数据集进行特征初选,其次将融合了支持向量机和k-最近邻判别法思想的SVM-KNN算法作为分类器,最后输出分类结果,SVM-KNN分类器的分类效果,比分另4单独运行SVM-KNN分类器和SVM-KNN分类器的分类效果都要好㈣。
5小结
miRNA的研究仍有许多问题需要解决,目前所采用的支持向量机、马尔科夫链模型、非负矩阵分解、KNN算法等热点分类方法,在识别过程中起着重要作用,但仍然有很多不足,如数据的单一值特征选取,生物数据库的基因组、代谢基因组、蛋白质组数据多特征分类,还有很大的研究空间。