论文部分内容阅读
生物体内只有非常小的一部分基因组能够编码蛋白质,大多数转录组为不能直接编码蛋白质的非编码RNA(nc RNA),其中长度超过200个核苷酸的被定义为长非编码RNA(lnc RNA)。近年来,越来越多的科学研究发现,lnc RNA发挥着重要和广泛的生物学功能,维持着生物体生命活动的稳定和正常进行。Lnc RNA在生物体内特异性表达,其数量远远超过了已注释序列的数目,同时,随着新一代测序技术的进步,大量生物基因已被测序,提供了充足的lnc RNA候选,因此通过机器学习方法从RNA测序中识别和描述出新的lnc RNA具有重要的生物学意义。本文分别提取了两种RNA序列的序列特征、二级结构特征和功能特性三类特征,其中,序列特征包括k-mer特征、ORF特征和CG含量特征;二级结构特征为二级结构三元组性质;功能特性包括基于二核苷酸间物理化学性质的伪核苷酸特征和形成二级结构的折叠过程中的最小自由能特征。为了解决正负样本间不平衡问题,使用一种改进的K-means聚类方法选出代表序列,同时,网格搜索方法被用来对伪核苷酸特征中的可变参数问题进行最优参数的选择。为了去除所提取的RNA特征集合中的冗余特征,寻找与分类最为相关的特征集合,本文提出了一种基于最大相关最小冗余的集成特征选择方法。综合考虑信息增益、皮尔森相关系数、Relief算法和随机森林等特征选择方法的评价结果,作为特征与类别之间的最大相关性评价指标,特征与特征之间的最小冗余性指标则由皮尔森相关系数评价。支持向量机模型在解决非线性问题上具有显著的优点,最后基于选择出的最优特征集合构建支持向量机分类模型。在拟南芥序列数据集上的实验结果显示,本文所提出的集成特征选择方法能够选择出的较少的特征,构建具有良好的分类性能的分类模型,且与现阶段使用较多的CPC、CPAT和Lncrna-pred等方法相比更有效。