类泛素化修饰位点和RNA结合蛋白预测的分类模型研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:zabdtt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质在生命活动中起着重要作用,了解蛋白质的结构与功能,有助于人类探索生命的运行机制,促进治疗药物的研发。其中,蛋白质与核酸的结合对细胞转录过程具有重要的调控作用,而蛋白质的翻译后修饰广泛存在于细胞翻译过程中。因此,核酸结合蛋白和蛋白质翻译后修饰位点的预测对于了解蛋白质的功能具有重要意义。传统的生物实验方法周期长、成本高,无法满足日益增长的大规模蛋白质数据的预测。基于计算的方法消耗成本更少且简单高效,特别是机器学习的飞速发展,使得基于机器学习的计算模型成为目前一种潜在的替代方法。因此,本文将机器学习的分类方法应用于类泛素化修饰位点和RNA结合蛋白预测问题,提出有效的预测模型。
  针对蛋白质类泛素化修饰位点的预测,本文提出了一种基于序列特征的预测模型SUMO-LGBM。该模型以氨基酸的物理化学属性统计特征和氨基酸序列二元语法模式特征描述氨基酸残基,并训练一个轻量型梯度提升机(Light Gradient Boosting Machine, LightGBM)分类模型从蛋白质序列的氨基酸残基中定位类泛素化修饰位点。本文对比了不同的特征的鉴别性,以及不同的分类模型的预测性能。在基准数据集上进行十折交叉验证,本文提出的模型相比于现有方法在性能上取得了明显的提高,马修斯相关系数(MCC)为91.64%,AUC值为99.57%。实验结果证明了本文提出的方法的有效性,可以作为生物实验方法验证蛋白质类泛素化修饰位点的一种辅助手段。
  针对RNA结合蛋白的预测,本文提出了一种新的预测模型CnnEtRBP。该模型基于蛋白质序列的三肽频率统计特征,使用卷积神经网络进行特征抽取,并训练一个极端随机树分类器。为缓解训练集上的数据不平衡问题,该模型利用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)对少数类样本进行上采样操作。在三个不同物种的独立测试集上,该模型的测试结果的AUC值均取得了当前领先的水平,高于排名第二的方法2%以上。实验结果表明,本文提出的方法是有效的,可以为实验方法识别RNA结合蛋白提供有效的候选目标。
其他文献
学位
学位
学位
学位
随着大数据时代的来临,全球互联网产业展现出巨大的发展活力和韧性,在数字基建和数字经济迅猛发展的同时,我国网民规模、互联网普及率以及平均每周上网时长都有迅速增加扩大趋势,这导致网民们每天都充斥在海量的网络信息里,产生了严重的信息过载问题。如何解决当前信息过载问题已经非常迫切,需要对海量信息进行信息抽取和过滤,减轻负担。而对于信息抽取最重要的一环就是自动文摘,自动文摘就是利用计算机对文本中心内容进行简
大数据时代带来了信息量的指数增长,现实中各行各业积累了巨量的数据。由于数据采集难度和事件发生频率的不同,导致了各个类别的样本数量具有差异,形成了类别不平衡问题。类别不平衡问题造成了传统机器学习分类器的分类精度下降。已有的代价敏感学习方法能够较好地处理类别不平衡问题,然而复杂的类别中蕴含了类与类之间的层次结构关系。数据中类别具有层次关系的样本分布不平衡问题给机器学习分类任务带来了很大的挑战:(1)少
学位
在多标记学习中,由于丰富的标记结果需要由大量的特征属性描述,同时标记间自由组合的标记子集数量随着标记数量的增加而呈指数型增长,在样本有限的情况下导致只有少数标记子集具有样本描述且这些标记子集的平均覆盖样本数量较少,这表现为多标记学习中的两个特点:特征维度高和不均衡学习,因此多数传统的单标记特征选择算法无法很好的直接应用到多标记学习任务中。本文以经典的FisherScore单标记特征选择算法为研究对
学位
在大数据时代,特征选择作为一种数据预处理技术,在机器学习领域发挥着越来越重要的作用。目前,大多数特征选择方法主要应用于单标签数据,然而,随着数据维度和标签的不断增加,特征选择已经广泛的应用于多标签数据,并产生了较好的分类效果。传统的一些多标签特征选择算法大多度量特征与整体标签集合的相关性,并选取一组相关性较大的特征子集,然而,多标签数据中的标签间存在着复杂的结构关系,如果仅仅去度量特征与标签间的相
学位
Pawlak提出的粗糙集理论,是一个处理模糊和不精确性问题的数学工具,能对数据进行分析和处理,从中发现隐含的知识;并揭示潜在规律,做出准确决策。但是,Pawlak粗糙集是以等价关系为基础,在很大程度上限制了粗糙集理论的使用范围和处理效果。为了解决这种问题,近年来学者们提出了多种广义粗糙集模型,包含关系粗糙集、模糊粗糙集、变精度粗糙集和覆盖粗糙集等,其中覆盖粗糙集理论已是粗糙集理论的重要组成部分。 
随着互联网、人工智能和云计算等新兴技术的飞速发展,这些领域的数据普遍呈现出高维的特点。同时,这些高维数据又存在特征维数与样本数量不协调、类别分布不均衡的问题。为了能够从这些海量数据中充分挖掘出有价值的信息,特征选择作为一种数据预处理技术,在机器学习领域发挥着越来越重要的作用。面对高维样本数据,目前许多特征选择算法都能够选取出与标签相关度较高、与其它特征冗余度较低的特征。但是,去冗余的过程较为复杂,
学位