基于特征融合的噬菌体水解酶识别及系统设计

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:superficalness
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
噬菌体是一种杀死细菌的病毒,特别是对已经产生抗药性的细菌。噬菌体在繁殖后代的过程中,分泌的水解酶是杀死细菌的关键物质,所以准确识别噬菌体酶和噬菌体编码的水解酶对细菌引发的疾病有着极大帮助。虽然利用生物化学的方法可以准确识别噬菌体水解酶并清楚的阐明酶的功能机制,但这种方法既耗时又昂贵。针对这一问题,本课题利用特征融合技术和机器学习(ML)算法构建了噬菌水解酶预测系统,论文主要研究工作如下:(1)样本的数字特征的提取与基于方差分析算法的特征融合。首先噬菌体酶和噬菌体水解酶样本被转化为四种数字特征,分别是G间隔二肽(GGDP)、伪氨基酸(Pse AAC)、成组的三肽(GTPC)和组成转变分布信息(CTD)。由于单类别特征对样本数据的表达效果不佳,所以这四种特征被组合为三组结合向量表达样本,第一组:GGDP和Pse AAC;第二组:GTPC和CTD;第三组:GGDP、PseAAC、GTPC和CTD。方差分析算法对结合向量中的无用特征进行了剔除使得多种特征融为一体。通过特征组合对比实验,噬菌体酶样本特征利用第三组结合向量为最佳的融合特征,而噬菌体水解酶最佳融合特征为第一组结合向量。(2)构建基于融合特征的噬菌体酶识别模型。噬菌体水解酶模型的构建分为两个阶段,首先构建噬菌体酶预测模型用于识别预测样本是否为噬菌体酶,然后建立噬菌体水解酶模型识别被标记为噬菌体酶的预测样本是否为噬菌体水解酶。对于噬菌体酶预测模型的建立,包含所有特征信息的第三组融合特征作为模型的输入向量,支持向量机(SVM)用于构建分类模型。在留一法交叉验证测试下,噬菌体酶预测模型的马修斯相关系数、受试者工作特性曲线下的面积和总体精度分别是0.703、89.7%和85.1%。(3)构建基于融合特征的噬菌体水解识别模型。当预测样本被标记为噬菌体酶时,需要进一步构建噬菌体水解酶模型,识别预测样本是否为噬菌体酶水解酶。噬菌体水解酶的预测模型构建与噬菌体酶模型保持一致,均为SVM。而在输入向量方面,噬菌体水解酶则为第三组融合特征。同样地,在留一法交叉验证测试下,噬菌体水解酶预测模型对噬菌体水解酶的识别精度为96%,非菌体水解酶的识别精度为93%,总体精度达到94.3%。(4)噬菌体水解酶在线预测系统的设计与开发。将本文设计的噬菌体酶和噬菌体水解酶预测模型集成为在线预测系统(网址为:www.predic.top)。系统使用python语言和FLASK框架进行搭建。在预测模块中,可对用户上传的FASTA格式的样本数据集进行批量快速地预测噬菌体水解酶和非噬菌体水解酶。此外,系统还设计了训练模块,集成了四种机器学习算法,方便研究人员对模型进行训练;在手册模块中,可以下载本文使用的实验数据;用户可通过联系模块发送邮件咨询实验或系统的相关问题。
其他文献
学位
学位
学位
本研究以‘中林5号’、‘香玲’、‘礼品1号’、‘礼品2号’核桃品种为试材,旨在研究不同物候期核桃的叶片及果实不同部位多酚类物质含量及其相关酶活性的动态变化,为山西省栽植核桃品种的选育及研究提供理论依据。成果如下:1.对不同核桃品种成熟期各器官多酚组分进行了分析,发现:4个核桃品种叶片、种仁、种皮和青皮中分别共检测到12种、8种、10种和12种单体酚物质。4个品种不同器官中含量最高的单体酚物质不同,
学位
随着我国经济发展、科技进步和人们生活水平的提高,养猪业也明显的发展起来,猪舍建筑也随之发生变化。由于我国传统猪舍存在着成本高、能源消耗大和资源浪费严重等问题,已经不适用目前畜禽养殖业的发展,所以对生态猪舍建筑的研究符合我国养殖业发展的趋势。生态猪舍建筑的设计研究既能实现建筑的节能,又能减少资源的浪费,符合可持续发展的要求。结合山西太原地区气候特点,应用农业生物环境原理、农业生物环境工程、流体力学、
本试验通过形态指标和生理指标对20份菜豆品种的抗旱性能进行比较,对筛选出来的抗旱品种和敏感品种进行了生理生化及分子机制的测定。本研究的主要内容及结果如下:1、以20份山西省内常见栽培普通菜豆品种为对象,研究菜豆在干旱胁迫下的生长与生理特性,通过主成分分析法得出净光合速率、蒸腾速率、气孔导度、叶绿素含量及叶片相对含水量这些指标可作为抗旱关键指标,并通过这些指标筛选出了抗旱品种‘红籽压塌架’与敏感品种
为强化审慎资本要求、监管当局监督检查和市场约束,进一步提高风险管理水平和促进金融稳定,巴塞尔银行监管委员会推出了以最低资本要求、监督检查和市场约束为三大支柱的新资本协议。鉴于新资本协议的复杂性和实施的高成本性,巴塞尔银行监管委员会并不要求本国或本地
期刊
网络表示学习技术又称网络嵌入,能够得到大规模网络中各节点的低维表示向量,在保存网络结构和节点属性的同时将节点映射为低维、稠密的实值向量,这些向量可作为节点特征完成节点分类、聚类、链路预测及可视化等网络分析任务。近年来学者们陆续提出了许多高效的网络表示学习模型,大多数模型仅考虑了网络的微观结构,忽略了介观层次的社区结构对节点相似性施加的约束;尽管也有部分保存社区结构进行网络嵌入的方法,但大多数为无监
近年来,随着无线电业务的快速发展,普洱市无线电频率的需求呈几何级数增长,当前,存在已分配无线电频率使用率低下的问题,而探究普洱本市已分配无线电频率的使用情况是解决上述问题的关键。本论文在介绍了无线电频率数据使用率分析相关理论的基础上,结合普洱市实际,设计了从无线电频率数据的采集、存储、预处理及指标分析的整体分析方案。按照设计的方案,利用普洱市现有的无线电固定监测站和移动监测站,实现覆盖普洱市九县一