论文部分内容阅读
采用支持向量机(SVM)结合K-mer分布特征预测piRNA.利用多种生物的非编码RNA序列数据库,从中挑选出piRNA序列作为正样本,并以由该数据库构建的非piRNA序列作为负样本,将正样本和负样本构成的数据随机取出50%作为训练集,将剩余的数据作为测试集;提取正样本和负样本序列的K-mer分布特征构建特征矩阵;用SVM对其进行分类,实现piRNA预测.结果表明K-mer-SVM在准确率、正例覆盖率、MCC和F测度等分类指标上均明显优于K-mer-LDA,说明K-merSVM是更好的piRNA预测算法.