论文部分内容阅读
micorRNA(miRNA)是一类长约22nt的非编码单链小RNA。它通过碱基互补匹配作用于转录后mRNA控制基因表达,发挥其后转录时期的基因调控功能。miRNA作为一种功能性RNA,其功能主要体现miRNA与靶标基因mRNA的相互作用上。miRNA靶标识别成为研究miRNA作用机制的关键。在生物信息学中,miRNA靶标预测研究实质为通过设计生物信息学相关算法,构建miRNA靶标预测模型。基于规则的miRNA靶标预测算法面临预测性能低,假阳性率高等弊端。鉴于生物学家对miRNA作用机制不是非常清晰,机器学习算法通过统计分析智能判定识别规则,成为miRNA靶标预测的重要研究方法。针对miRNA靶标预测高维度、非线性小样本训练集,基于支持向量机算法解决miRNA靶标预测的分类识别问题,对改善miRNA靶标预测性能、正确识别更多未知miRNA阳性靶标意义重大。首先,提出了基于一种新型SVM方法--SVM构建miRNA靶标预测分类器模型算法SVM-MRFS。该算法基于-SVM分类间隔定义了特征有效率,并以特征有效率为标准对原始特征集进行排序,经过不同特征子集中迭代训练寻找最佳特征子集,进而对miRNA靶标进行预测。其次,提出了基于剔除冗余特征构建miRNA靶标预测分类器模型算法SVM-RRFD。算法分析了特征有效率单标准不能剔除冗余特征,又忽略具有较小特征有效率的特征对分类器的作用。因此,算法SVM-RRFD基于-SVM分类器模型,分析原始特征集中两两特征间关联关系,定义了特征冗余度标准。算法通过融合分类识别和特征选择,依据特征有效率和特征冗余度双重标准筛选能够兼顾分类器识别性能和泛化性能的最佳特征组合,基于最佳特征组合训练SVM分类器构建高性能miRNA靶标预测模型。最后,本文在Matlab2009a开发平台下,实现算法SVM-MRFS和算法SVM-RRFD在miRNA靶标预测数据集上的试验仿真。SVM-RRFD算法经过迭代训练筛选出表征miRNA与靶标作用模型的最佳特征子集,用网格搜索寻找分类器最佳参数组合,以期构建高性能miRNA靶标分类器模型。