论文部分内容阅读
MicroRNA(miRNA)和基因间区的长非编码RNA(lincRNA)是基因组上的两类重要非编码RNA,它们与生物学机理和疾病发生发展密切相关。由于miRNA和lincRNA研究还不十分透彻,还有许多新miRNA和lincRNA有待于识别。目前已有一些识别miRNA前体(pre-miRNA)和lincRNA的方法,但多数方法都没考虑利用机器学习去识别非编码RNA的特征冗余性和有效性。本课题基于支持向量机和遗传算法耦合的特征选择方法(GA-SVM)优选特征,利用五倍交叉验证方法去评价优化特征子集的分类有效性,然后基于优化特征子集和支持向量机构建分类器,通过预测新的miRNA和lincRNA去评估分类器的识别能力。 对于pre-miRNA识别,本课题首先提取了与pre-miRNA序列和结构相关特征,通过miRBase15中人类pre-miRNA序列和伪发夹上的特征分析发现,多数特征在两类样本中差异很小,这说明不是所有的特征都是对分类有效的。其次,基于特征选择算法GA-SVM得到了miRNA优化特征子集,此集合中大部分都是与结构稳定性相关的特征。此外,利用五倍交叉验证方法把miRNA优化特征子集与已有特征集上的分类性能进行比较,结果发现优化特征子集的分类性能最好,这说明我们的特征选择是有效的。进一步地,基于miRNA优化特征子集和支持向量机构建了分类器miR-SF,通过miRBase16中最新被识别的人类pre-miRNA上的预测发现,它要优于另外两个已知分类器microPred和miPred。 对于lincRNA的识别,首先我们提取了lincRNA序列、结构和编码能力特征,类似地,基于GA-SVM算法提取了lincRNA优化特征子集,通过检验集上的五倍交叉验证精度分析发现,该特征子集的分类能力要优于其它特征集。进一步地,基于lincRNA优化特征子集和支持向量机构建了分类器linc-SF,通过预测UCSC和GENCODE4中lincRNA发现,linc-SF有很好的识别能力。 综上所见,基于GA-SVM算法优选特征子集并构建的分类器miR-SF和linc-SF是对两类非编码RNA识别有效的分类器,两类非编码RNA的识别将有助于深入研究其参与的生物学过程,从而推动疾病相关病理机制的进一步研究。