基于随机森林算法预测真菌和水稻microRNA的研究

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:wcf333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
microRNA是一类内源性的长度约为20~24个核苷酸的单链非编码小RNA,具有高度进化保守性和表达特异性,在生物体内的各种生理和病理过程中发挥着广泛而重要的调控作用。迄今为止,科学家已经在动物、植物、病毒以及真菌等生物体中检测到了数以万计的microRNA,但是仍然有大量未知的microRNA等待着人们的发现。因此,更多新的microRNA的发现与识别,将有利于人们对它的功能以及它在复杂生物过程中的调控作用展开更深层更全面的研究与分析。新的microRNA的发现主要有生物实验检测和计算预测识别两类方法,前者虽然更为直接准确,但是其实验周期长,成本高,而且很难克隆特定组织、特定时期表达的microRNA。研究表明,基于计算的预测方法可以弥补实验方法的不足,近年来,随着生物信息学和机器学习的不断融合发展,基于机器学习的计算预测方法已成为当前的研究热点。因此,本论文以生物信息学为背景,基于机器学习中的随机森林算法构建了两个计算模型,mil RNApredictor和plant Mir P-rice,分别用来预测识别真菌和水稻的microRNA,具体的研究成果概括如下:(1)milRNApredictor的构建。该研究中,我们结合了k-mer方案和距离相关的k-mer对电势,构造了106个基于知识的能量特征,基于随机森林训练了一个用于从头预测真菌microRNA(mil RNA)的模型,该模型不需要参考基因组和mil RNA前体序列。研究结果显示,4-、6-、8-和10-折交叉验证的AUC值分别为0.8324、0.8324、0.8335和0.8362,表明mil RNApredictor具有良好的预测性能。(2)plant Mir P-rice的构建。该研究中,我们共提取了83个特征来训练基于随机森林的预测模型,专门用于预测水稻microRNA前体(pre-mi RNA)。这些特征包括34个新的基于知识的能量特征以及49个现有的特征。研究结果表明,plant Mir Price对水稻pre-mi RNA的预测性能良好,准确性达到了93.48%;另外,plant Mir Price在植物pre-mi RNA预测分类方面的表现优于现有的预测工具。
其他文献
当前,公司股权结构趋于集中,大股东的控股比例不断上升。对上市公司而言,上市公司大股东可能依靠控制权地位侵占中小股东的利益,以实现其谋取私利的目的。这就导致在现代公司
流程模型变化域分析旨在研究变更操作对模型带来的影响,对流程模型结构、活动行为等方面进行分析,包括精确定位模型变化区域、变化域对行为路径产生的影响以及变化传播等问题,以达到模型重用和模型优化的目标。已有的一些研究多是依据给出的目标模型,采取静态分析的方式,以模型结构的固定观测点来进行变化域分析。但是,这类方法需要明确给出目标模型,并且静态分析有时不能够快速精确地定位模型变化区域。所以,本文对流程模型
微流控技术简化了传统的生化检测过程,如试剂的制备、混合、检验芯片等,在医药学、生物学、分析化学和环境监测等领域得到了广泛的应用。微混合器是微流控芯片的重要组成部分,它可以显著缩短样品的预处理时间,大大提高微流控芯片的检测效率。根据微混合器的工作特点即是否需要增加外部能量源来促进流体混合,可分为被动微混合器和主动微混合器。大多数主动微混合器制造复杂,难以与其他系统集成,不利于大规模生产。被动微混合器
压电分流技术应用于汽车车身减振降噪是目前热门研究方向。本文首先基于嵌入式系统设计的数字控制器,改进合成阻抗压电分流电路,编写相应程序实现现有的模拟器件电路普通谐振
近年来我国法治政府建设不断向前发展,而非诉行政执行案件一直占据法院行政案件中相当一部分比重,处理好这类案件也是政府法治化进程中的应有之义。审查作为这类案件最为重要的环节,法院必须严格把守好这个关口。而司法审查标准则关乎审查时能否作出正确的判断,为此处于核心的地位。在我国,现行的非诉行政执行制度首现于上世纪80年代,之后在1989年制定的《行政诉讼法》中以第66条的规定正式形成。在此之后的30年中,
背景:反常性痤疮(Acne Inversa,AI)是毛囊-皮脂腺-顶泌汗腺单元的慢性炎症性皮肤病,主要累及皱褶部位,皮损可表现为脓肿、窦道、瘢痕形成,严重影响患者的生活质量。2010年,王宝玺教授等首先发现γ-分泌酶的基因突变与反常性痤疮的发病有关,随后在不同国家证实。γ分泌酶是家族性AI研究的热点,其包含四个组分,分别为:早老素(presenilin,PS)、纳卡斯楚因蛋白(nicastrin,
烯基叠氮,是叠氮化合物家族中一类重要的“家族成员”。在药物合成和有机材料研究中扮演者重要的角色。因为烯基叠氮独特的结构-既包括供电子的叠氮基团,又包括烯烃结构,使得
金属卡宾因其高反应活性,可与不同种类的亲核试剂发生多样化的化学转化,是有机合成中构建碳-碳键、碳-杂原子键以及复杂分子骨架的一种重要反应中间体。其中Buchner反应是历
有限元法是求解微分方程比较有效的数值计算方法,其具有数值稳定性好、通用性强、适用性广等特点。有限元求解精度依赖于网格和单元阶次,通常情况下有限元计算网格越密,单元
塑料的庞大市场为社会发展起到了推动作用。塑料应用范围十分广泛包括包装、农业、建筑、汽车等多个领域。作为轻工行业支柱产业之一的塑料也存在很多缺点限制了其使用范围。无论是通用塑料还是工程塑料,其强度较高,但是缺口冲击强度较低,达不到工程中的使用条件,用橡胶对塑料进行增韧是长久以来人们解决塑料使用缺陷的一种常用手段,也是最简易有效的手段。在长时间的橡胶增韧塑料体系的研究过程中,增韧理论不断丰富,橡塑共混