基于机器学习的siRNA沉默效率预测方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:shb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA干扰(RNA interference,RNAi)是一种利用双链RNA(double-stranded RNA,ds RNA)依据碱基互补配对原则,实现转录后的基因沉默现象。植物、真菌、无脊椎动物和哺乳动物等真核生物都能够实现RNAi过程。在哺乳动物细胞中,ds RNA被剪切成较短的21-23nt的双链RNA,即小干扰RNA(small interfering RNA,siRNA),诱导靶标m RNA的降解。近年来RNAi在研究基因功能、基因治疗以及药物研发中具有非常广泛的应用,对于RNAi技术过程中起关键作用的siRNA,更是受到了研究人员的关注。由于靶向同一m RNA不同位置的一系列siRNA会产生不同的沉默效率,且大部分的siRNA产生的沉默效率都不理想,因此,如何设计高效的siRNA使得靶标m RNA的沉默效率达到最高,已成为RNAi研究中最关键的问题。siRNA设计是将RNAi技术应用到研究基因功能与药物研发等领域的重要前提,也已经成为RNAi研究的一个热点。目前siRNA设计方法主要分为两类:基于统计规则的siRNA设计方法以及基于机器学习的siRNA设计方法。研究表明,基于机器学习的siRNA设计方法能够更准确地定量预测siRNA对靶标m RNA的沉默效率。然而,尽管目前已经产生了一系列基于机器学习的siRNA设计算法,但预测效率仍有待提高,siRNA序列上与siRNA沉默效率相关的潜在特征还需进一步发掘,许多新颖的高性能机器学习模型尚待尝试用于siRNA效率预测。本文将从siRNA序列中挖掘潜在影响RNAi过程的特征,并在此基础上提出基于随机森林预测模型定量预测siRNA沉默效率的方法;此外,为探测siRNA序列中不同长度motif对siRNA沉默效率的影响,本文还提出了基于卷积神经网络的siRNA效率预测模型。全文的主要研究内容如下:1、提出将二模和三模motif位置编码作为siRNA沉默效率预测的新特征,并建立随机森林预测模型定量预测siRNA的沉默效率。由于siRNA序列是影响RNAi效率的重要因素,从siRNA序列中挖掘更多潜在的特征也一直是研究的重点。有研究表明,当siRNA序列中每一位的2-3bp RNA被DNA代替,RNAi的效率会发生一定的变化。这说明,不仅单碱基位置与组成与RNAi效率相关,siRNA序列上特定位置的二模和三模motif也与RNAi效率相关。本文首先根据已知的siRNA样本验证siRNA序列中不同位置二模和三模motif在高效siRNA和低效siRNA之间存在显著的偏好性;然后,提出将二模和三模motif位置编码作为新的预测特征;随后,利用基于z-score的最优特征集合搜索方法,筛选与siRNA沉默效率最相关的特征子集,构建基于随机森林的siRNA沉默效率预测模型,并据此开发高效siRNA沉默效率在线预测平台siRNApred。在Huesken数据集上进行的验证实验表明,siRNApred预测结果的PCC值达0.722,比Biopredsi、i-score、Thermo Composition-21、DSIR等已有siRNA沉默效率预测方法分别提高了9.39%,10.39%,9.56%和7.76%。此外,在多个独立数据集上进行预测实验考察siRNApred的泛化能力,结果均显示其比其他方法性能更稳定。siRNApred工具的在线地址为http://www.jlucomputer.com:8080/RNA/。2、设计卷积神经网络实现siRNA siRNA沉默效率预测方法。siRNA序列对RNAi效率的影响不仅在于二模和三模motif,多模motif也可能与siRNA沉默效率密切相关。然而,现有的siRNA特征提取方法未能体现多模motif对siRNA沉默效率的贡献。为探寻多模motif对siRNA沉默效率的影响,本文提出基于卷积神经网络的siRNA效率预测模型。在卷积神经网络中的卷积层,设计合理尺寸的卷积核作为motif探测器,以数据驱动方式自动学习多模motif更抽象、更贴近本质、更利于分类的潜在特征模式,并形成综合多模motif作用共同预测siRNA沉默效率的模型。该模型经过实验调校模型超参数,形成由一个卷积层,一个池化层和一个输出层构成的卷积神经网络。其中卷积层使用6×4至19×4共14种尺寸卷积核探测潜在motif特征模式,池化层使用最大值算子和均值算子选取最具代表性神经元构成特征表达,输出层使用逻辑回归映射预测结果。在综合多个siRNA数据集的大规模样本上进行比较实验,结果显示该方法的PCC值和AUC值达0.717和0.894,均高于Biopredsi,DSIR以及siRNApred方法。这体现该方法能够深入挖掘siRNA序列中不同长度motif对siRNA沉默效率的贡献,更充分地将siRNA序列的局部特性、碱基和motif组成以及位置排列等有价值线索蕴含于特征模式中。这种由数据驱动的特征学习模式比依赖专家知识预设的特征提取模式性能更优。本文主要创新点包括:(1)、首先提出将二模和三模motif位置编码作为siRNA沉默效率预测的新特征,其次提出基于z-score的特征选择算法并对siRNA单碱基编码、siRNA和m RNA序列组成、二模和三模motif位置编码和热力学参数进行特征筛选,最后开发siRNA沉默效率在线预测平台siRNApred;(2)、设计用于探测siRNA序列中多模motif特征模式的卷积核,提出并验证基于卷积神经网络的siRNA效率预测模型。综上所述,本文旨在进一步挖掘与siRNA沉默效率相关的特征,并综合多种siRNA特征表示和特征选择算法,建立依据生物学属性的最佳特征集合,并在随机森林分类器上提升siRNA沉默效率预测效果;同时,设计合理的卷积神经网络结构,数据驱动地学习多模motif潜在特征模式,从而设计更高效siRNA。文章提出了两个siRNA效率预测模型,并详细描述了每个模型的细节,设计比较实验验证这两个模型的精度,结果显示本文方法与当前主流的siRNA沉默效率预测方法相比性能均有所提升。
其他文献
目前,我国是世界最大的能源化工原料的生产和消费国家。能源与化工原料的生产和运输安全形势非常严峻,能源化工领域危化品泄漏爆炸事故频发,工农业中有毒有害气体的排放导致
中国有巨大的市场和大量优秀人才,中国公司的执行能力和生产能力很强,如果能把中国的这些优势同以色列的科技创新能力整合起来,将会产生奇迹。
IPC-国际电子工业联接协会。于2012年8月28日发布了7月份北美地区印制电路板(PCB)统计调研报告。PCB行业增长率和订单出货比结果刚性PCB,7月份出货量同比下降4.2%,订单同比减少了5.7%
目的研究骨皮质解剖复位在肱骨近端骨折内固定术中内侧柱支撑重建的临床价值。方法选择我院43例肱骨近端骨折患者为研究对象,以随机数表法将其分为观察组(n=22)与对照组(n=21
蛋白质翻译后修饰是对翻译后的蛋白质进行共价加工的过程,它在调控蛋白质构象变化、活性以及功能等方面发挥着重要作用。精确地识别翻译后修饰位点是深入探究翻译后修饰分子
在高中教学课程中,物理是一门重要的自然科学,它引导学生加强对自然界的认知,关系着人类的科学发展和生存创造。电磁感应是我们日常生活中常见的一种物理现象,通过人们对它多
【正】 人,是社会大舞台上唯一的主角。没有人哪来的社会?社会就是由人组成的。作家要想反映社会现实生活,就不能离开人,就必须写入。写什么?容貌、语言、行为、关系等等当然
现代工业生产过程中,过程监测技术对于保证过程正常运行,提升产品质量有着重要的研究意义和实用价值。随着工业生产的复杂化和大规模化,过程的机理模型往往难以获得,而由于计
目的探讨Dieulafoy病致急性消化道大出血的临床诊断及综合治疗方法。方法回顾性分析16例Dieulafoy病合并消化道大出血患者的临床资料。结果本组16例出血部位为胃体14例,贲门2