人类miRNA前体和lincRNA的识别方法研究

来源 :哈尔滨医科大学 | 被引量 : 0次 | 上传用户:myg3801403
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MicroRNA(miRNA)和基因间区的长非编码RNA(lincRNA)是基因组上的两类重要非编码RNA,它们与生物学机理和疾病发生发展密切相关。由于miRNA和lincRNA研究还不十分透彻,还有许多新miRNA和lincRNA有待于识别。目前已有一些识别miRNA前体(pre-miRNA)和lincRNA的方法,但多数方法都没考虑利用机器学习去识别非编码RNA的特征冗余性和有效性。本课题基于支持向量机和遗传算法耦合的特征选择方法(GA-SVM)优选特征,利用五倍交叉验证方法去评价优化特征子集的分类有效性,然后基于优化特征子集和支持向量机构建分类器,通过预测新的miRNA和lincRNA去评估分类器的识别能力。  对于pre-miRNA识别,本课题首先提取了与pre-miRNA序列和结构相关特征,通过miRBase15中人类pre-miRNA序列和伪发夹上的特征分析发现,多数特征在两类样本中差异很小,这说明不是所有的特征都是对分类有效的。其次,基于特征选择算法GA-SVM得到了miRNA优化特征子集,此集合中大部分都是与结构稳定性相关的特征。此外,利用五倍交叉验证方法把miRNA优化特征子集与已有特征集上的分类性能进行比较,结果发现优化特征子集的分类性能最好,这说明我们的特征选择是有效的。进一步地,基于miRNA优化特征子集和支持向量机构建了分类器miR-SF,通过miRBase16中最新被识别的人类pre-miRNA上的预测发现,它要优于另外两个已知分类器microPred和miPred。  对于lincRNA的识别,首先我们提取了lincRNA序列、结构和编码能力特征,类似地,基于GA-SVM算法提取了lincRNA优化特征子集,通过检验集上的五倍交叉验证精度分析发现,该特征子集的分类能力要优于其它特征集。进一步地,基于lincRNA优化特征子集和支持向量机构建了分类器linc-SF,通过预测UCSC和GENCODE4中lincRNA发现,linc-SF有很好的识别能力。  综上所见,基于GA-SVM算法优选特征子集并构建的分类器miR-SF和linc-SF是对两类非编码RNA识别有效的分类器,两类非编码RNA的识别将有助于深入研究其参与的生物学过程,从而推动疾病相关病理机制的进一步研究。
其他文献
随着社会的发展,经济水平的提升,对燃油的消耗与需求也在不断增长,燃油机的使用也在逐渐广泛应用.在日益增长的市场需求下,燃油机的计量检定工作也更加严格与重要,而由于一些
乙醛酸循环包括柠檬酸合成酶(CS)、顺乌头酸酶(ACN)、异柠檬酸裂解酶(ICL)和苹果酸合成酶(MS)四种酶,是TCA循环的回补途径。目前,通过改造乙醛酸循环和TCA支路生产丁二酸的研究
与广义电介质相比,有“智能绝缘材料”之称的非线性绝缘电介质具有随场强变化的电导率或(和)相对介电常数。它们的广泛应用极大地提高绝缘结构的性能。例如,应用于电机线棒端
在我国经济高速发展的今天,铁路对于我国经济增长的贡献十分巨大,并且其对于我国客运以及货运事业的发展也有着突出贡献.与此同时,对于铁路隧道来讲,由于运营时间的增加,也会
能源需求不断增加,化石能源日益枯竭、核能的发展受到一定范围内的限制,能源问题愈来愈成为世界各国所面临的一个严峻挑战。随着近年来多种新型发电技术(可再生能源、高效清
环境监测的工作质量直接关系到了我国环境保护工作的顺利进行进度,而环境监测中现场采样则是其中的重中之重,因此为了解决当下采样工作出现的几点问题,需要提高人员的综合素
本文通过分析了混凝土裂缝产生的原因,进而针对产生的原因列举了相关的防御和控制措施,以期为建筑工程混凝土施工提供参考.
发电厂继电保护整定计算软件用以辅助整定计算人员工作、提高计算效率。发电厂继电保护整定计算智能系统(SCIS)由华北电力大学智能控制与仿真教研室研发,已应用于工程现场实际,效果良好。但该系统在实际运行中仍然存在人工参与量大、操作较繁琐等一些不足,制约着系统的推广应用。本文对SCIS系统存在的不足进行改进和优化。针对SCIS系统定值单格式固化于程序中、不能灵活对应外部定值单格式变化的缺点,提出了基于模
岩溶地区桩基施工中,仅通过常规的机械冲孔施工方法一般都难以成孔.本文结合实际案例分析了岩溶地区的溶洞地基处理方法,以此来促进岩溶地区桩基施工水平的不断提升,更好地完