基于组分特征的tracrRNA识别和预测

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:spiker315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
CRISPR-Cas系统是细菌和古菌的RNA介导的适应性免疫系统,可以针对性切割外源核酸序列,目前已发展为使用最为普遍的基因编辑工具。II型CRISPR-Cas的部分亚型(如A、B、C)依赖于反式激活CRISPR RNA(tracrRNA)干扰入侵序列及使pre-crRNA成熟。经RNA酶III处理后,tracrRNA与crRNA复合体激活CRISPR相关核酸内切酶Cas9(Csn1)切割位点特异性同源的靶DNA。因此识别tracrRNA对于研究开发新的CRISPR-Cas系统的基因组编辑工具有着重要的作用。本文收集了54条已知的tracrRNA构成阳性训练集,对已知的tracrRNA随机改组,构造具有tracrRNA结构特征并且与已有tracrRNA具有相同核苷酸组成的“假tracrRNA”数据集,构成阴性训练集。通过伪核苷酸组分PseKNC方法表征原始训练集,作为训练分类器的特征数据集。采用机器学习的方法构造分类器,在训练过程中,使用留一法交叉检验评估分类器的性能,使用基于方差分析的特征选择技术进行特征优化,去除模型构建过程中包含的不相关的冗余特征,最终获得基于最优PseKNC参数的特征数最小,性能最好的tracrRNA分类器。使用支持向量机和朴素贝叶斯、随机森林等其他机器学习算法进行比较时,支持向量机在训练模型过程中的预测性能明显优于其他方法。基于支持向量机,通过特征选择筛选以及留一法评估,当PseKNC参数k为5,j为1,w为0.5,特征数为171时,训练的tracrRNA分类器具有最优的预测性能,其敏感性为98.15%,特异性为100%,准确率为99.07%,MCC为98.16%,ROC曲线下面积为0.998。该结果说明,该分类器在区分tracrRNA与具有tracrRNA结构特征和氨基酸组成的“假tracrRNA”具有非常好的区分能力,为识别新的tracrRNA以及实验过程中设计优化tracrRNA提供了强有力的辅助手段。
其他文献
盆腔瘀血综合征是指由于慢性盆腔静脉血液流出不畅,盆腔静脉充盈、瘀血所引起的一类综合征,临床表现为下腹部坠胀、腰骶部疼痛、性交痛、月经紊乱、白带增多等一系列症状,而
根据《国家智能制造标准体系建设指南(2018年版)》以及《智能制造工程实施指南(2016—2020)》,从选煤厂生产所涉及的活动、装备、特征三个方面,分析了目前选煤厂智能化建设中
原发性扩张型心肌病(DCM),是以心室收缩功能不全所致的泵功能障碍为特征,起病缓慢,早期可无症状,渐出现胸闷、气急、甚至端坐呼吸、乏力、上腹胞胀、浮肿和肝肿大等低心搏量
采用文献资料、专家访谈等方法,对“体教融合”进行系统解析。针对校园足球深化“体教融合”发展的青少年身心发展和掌握足球技能逻辑问题、师资问题、竞赛平台一体化构建、
随着移动技术发展和智能手机的普及,以及"互联网+教育"理念的深化,研究移动学习和混合式教学模式的有效整合对推进教育信息化进程意义重大。文章分析了当前国内外移动学习的
在生动形象的课件、微视频纷纷走进语文课堂的当今,您是否已经忽略了语文教材中最直观、最常规、最容易获取的教具——插图?插图作为小学语文教材的重要组成部分,是编者根据课
近年来,双柏县大力推广互叶白千层种植,成为群众致富增收的新兴产业,一次种植可通过多次萌芽连续收获15年以上。互叶白千层,又叫澳洲茶树、澳洲白千层,2019年引种到全县大面
本文从理论上讨论了水泵叶频压力脉动的产生机理,为数值计算和深入研究叶频压力脉动提供了数学模型。