论文部分内容阅读
miRNAs是一类具有调节作用的非蛋白编码的单链RNA分子,它可以调节人体内三分之一的信使RNA(mRNA)的表达。研究者的工作报告表明,对miRNA表达谱进行研究,可以区别正常组织和肿瘤组织。而且在发现肿瘤的过程中,进行miRNA表达谱的研究,有利于寻找基因治疗的新靶点,以及提高诊断和疾病预后的准确率。在这样的背景之下,本文基于miRNA表达谱数据集,提出了一种新的数据挖掘算法——TSVMKNN,从研究肿瘤组织与正常组织的分类问题着手,对特征选取和分类器的分类准确率进行分析和研究。该算法的具体思想是:首先采用t统计量方法对miRNA表达谱数据集进行特征初选,其次将一种融合了支持向量机思想和K-最近邻判别法思想的算法——SVM-KNN算法作为分类器,最后输出分类结果。实验结果表明:(1) SVM-KNN算法分类器在原理上既能继承原来各分类器中的优点,又能克服各方法中的缺点,分类能力比单独运行SVM、KNN都要好,即是可以提高预测准确率。(2)在miRNAs“标签”的数量和识别精度方面,本文所提出的TSVMKNN算法取5个信息基因即可获得96.08%的分类准确率,与同类的算法相比,具有明显的优越性。