基于半监督学习方法的原核生物类泛素化位点预测研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:yue09898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
原核生物类泛素化修饰(Pupylation)是在原核生物中发现的与真核生物中泛素化修饰作用相似的一种蛋白质翻译后修饰形式。在该过程中,原核类泛素化蛋白PUP在酶的作用下识别出细胞中的底物蛋白质并对其特定的赖氨酸残基进行修饰。最新研究表明,原核生物类泛素化修饰与某些致病性细菌的致病性密切相关,弄清其作用机制可以为这些细菌所致疾病的治疗提供帮助。在原核生物类泛素化研究中,关键的步骤是找出PUP的底物蛋白质以及这些蛋白质上的可修饰位点。所以原核生物类泛素化位点识别成为解决该问题的起始关键步骤。用生物实验方法识别原核生物类泛素化位点投入大、耗时长,实验并不是总能够取得成功。因此通过计算方法对原核生物类泛素化位点进行预测成为实验研究的一个重要补充手段。目前已经有一些用于原核生物类泛素化位点预测的软件工具被开发出来,但是这些计算方法中普遍存在的正样本集规模小、负样本集不可靠、训练集不平衡以及特征提取方法单一等问题在很大程度上影响了程序的预测性能。因此综合多种序列特征并构建更加可靠的正负样本数均衡的大样本量训练集成为提升算法预测性能的重要努力方向。本研究中,我们提出了一种新的基于半监督学习策略的原核生物类泛素化位点预测算法。首先,采用6种特征提取方法对氨基酸序列进行特征提取,将原始的序列样本转化为对应的特征向量。然后,以提取到的特征向量为输入数据开发了一种基于K均值聚类的可靠训练集构建算法。在该算法中,我们利用K均值聚类从正样本集和无标记样本集中分别提取对应的高密度簇,运用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)对提取到的正样本高密度簇进行扩增,以提高正样本数量。另一方面,运用间谍技术(Spy Technique)对提取到的无标记样本高密度簇进行提纯,从而提取可靠负样本集,上述步骤在提高正样本数量和负样本可靠性的同时调整正负样本数量比例,达到解决样本不均衡问题的目的,最终构建出可靠的均衡训练样本集。最后,以这个样本集为最终的训练集训练一个随机森林模型,将其作为最终的预测模型对待预测的位点进行识别。我们通过构建训练集和独立测试集对算法进行了实验,结果表明,本文提出的可靠训练集构建算法能够有效提升算法的预测性能,与其它预测算法相比较,本文所提的算法在多项性能指标上均有所提升,特别是在代表综合预测性能的准确性和马修斯相关系数上,性能提升更加明显。对比实验也同时表明,本文所提出的可靠训练集构建算法在解决原核生物类泛素化位点预测问题上较其它的类别不平衡问题解决方法更加有效。本文所提出的算法同样适用于其它类型的蛋白质翻译后修饰位点预测问题,特别是为小样本的翻译后修饰位点预测问题提供了一个解决方案。
其他文献
宽带盲源分离是指在源信号为宽带信号,源信号及传输信道各种参数均未知的情况下,仅根据观测信号自身特性恢复出源信号的过程。现有针对宽带信号的盲分离算法不完善,可以采用宽带盲波束形成解决宽带盲分离问题。宽带盲波束形成指在信号来向和阵列流行不知道的情况下,仅通过自身算法,即可有效实现空域滤波,实现期望信号的提取。因此,本文主要研究基于盲波束形成的宽带盲分离算法及其应用,主要研究内容如下:1、针对传统盲分离
丁澎,明末清初浙江仁和文人,字飞涛,号药园。生于明末天启二年(1622年),为崇祯壬午年(1642年)举人,入清后,于顺治十二年(1655年)中进士,官礼部主客司,历升仪制司员外郎,顺治十四年(1657年)奉旨典试河南为副主考,因循旧制,用墨笔于考生硃卷上改易数字,有违科场新例,被贬辽东五载,多得兄弟亲友经济其家。著有《扶荔堂诗稿》、《扶荔堂诗集选》、《扶荔堂文集选》和《扶荔词》等。本论文主要围绕
以研发一种新型、高效、节能、环保的冷芯盒制芯材料及其在缸体铸件砂芯上应用为目标,使其满足既具有优异的工艺性,又能适合绿色、环保的铸造生产大批量制芯的需求。论文研究取得以下成果:(1)优化了酚醛树脂本体合成工艺确定最佳的工艺参数和原材料配比,得到了具有较高强度的甲阶酚醛树脂本体。采用分段升温等工艺方式,以Na OH为催化剂,由甲醛和苯酚等材料在碱性催化剂作用下通过缩合反应获得/制备。技术参数为:Na
网络热点事件反映了社会动态、民生意愿,受到社会各界广泛关注,但是新闻门户网站中存在大量冗余的信息,人工的方式难以有效获取网络热点事件相关信息,且部分网络热点事件爆发迅速、影响巨大,人们需要及时了解事件发展态势。因此人们需要计算机能够在大量的新闻信息中自动发现网络热点事件,甚至在网络事件的早期对热点事件进行识别。网络热点事件识别技术受到研究者们的广泛关注,很多研究者使用不同的文本表示模型提升了热点事
党的十九大报告提出实施以“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”为总要求的乡村振兴战略,做好脱贫攻坚与乡村振兴的过渡和衔接。本文基于资产建设研究的视角,以D村为研究对象,以乡村振兴为背景,以资产建设理论为基础,综合运用个案访谈法和实地观察法,从自然资源及物质资产、人力资源资产、产业经济资产、社区组织资产、文化资源资产5个方面着手研究D村的资产建设实践,探讨乡村振兴背景下农村资产建设的路
近年来,随着中国经济的快速发展和新兴城市的迅猛崛起,国家安全面临诸多威胁和挑战,城市安全形势十分严峻。从国内层面看,城市人口膨胀、贫富差距拉大和社会利益分化等冲突进入前所未有的活跃期;从国际层面看,恐怖袭击事件频繁发生,严重危害到社会公共安全秩序。为了解决当前城市安防监控系统存在的时效性差、检测率低和局限性大等问题,本文提出将异常声学事件检测(AAED)系统加入城市安防监控系统中,从信号的预处理、
当前信息社会的飞速发展对通信传输的容量和质量提出了更高的要求,如何保证通信系统能够更好地服务于未来数以十亿计的用户和设备正成为一个重要的议题。为了解决频谱资源日益紧缺,与通信系统性能要求不断提升之间的矛盾,人们将目光投向了频谱资源丰富并且尚未被大规模使用的毫米波波段。毫米波具有频带宽、波束窄等特点,同时其超短波长特性使天线阵列的大规模集成成为了可能,因此,毫米波技术与大规模MIMO(Multipl
创业意向(Entrepreneurial Intention)是创业初始阶段的必须要素,也是预测创业活动的重要方面。随着近期我国转型化进程渐渐加快以及社会就业压力的不断加剧,创业逐渐成为大
在过渡金属催化的反应中,膦是最为常见的一类配体,它对稳定活性金属中心原子和微调反应选择性方面都起着至关重要的作用。近些年的研究发现在过渡金属催化的反应中,膦配体的C-P键可以发生断裂,并形成一些意外的偶联产物。这个实验现象促使一些化学工作者产生了研究兴趣,并对C-P的活化和断裂进行了探索和研究。本论文的研究工作就是基于这些研究工作的基础上,通过季鏻盐中C-P键的断裂,结合不同的亲核试剂,实现了一系
针对提升ZnO材料在加速度传感器中的应用,本文基于MEMS技术设计了一种ZnO纳米结构加速度传感器,其结构由硅基悬臂梁、Ti/Pt底电极、ZnO籽晶层、ZnO纳米结构和Ag顶电极组成。基于压电效应的理论基础,利用信号发生器施加一定大小的激振电压对加速度传感器梁体进行激振,ZnO纳米结构和ZnO籽晶层组成的压电层会因梁体振动产生交流电信号,经上下电极导出以实现对输出电学信号的测量。通过COMSOL软