基于机器学习的磷酸化修饰位点预测研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:sunjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质翻译后修饰作为发生于RNA翻译后的一种共价加工过程,是一种调控蛋白质功能的重要机制,几乎参与了生物细胞内所有的正常生命活动。因此深入研究翻译后修饰对于理解蛋白质组学的作用机制,以及人类某些疾病的发病机制具有重要作用。然而传统的实验鉴定方法难以满足现在对于海量数据的分析需求,近年来,随着生物信息学这一交叉学科的诞生,利用机器学习的计算预测算法对蛋白质翻译后修饰的预测成为了当前重要的研究内容之一。因此,本文基于机器学习算法对磷酸化修饰进行了研究与分析,具体内容如下:(1)基于支持向量机的人类蛋白质磷酸化修饰位点预测研究。提出一种磷酸化修饰序列片段特征提取方法,即信息熵与密度熵,用于提取磷酸化修饰位点两侧蛋白质序列片段的保守信息;基于不同物种间的特异性,选取人类蛋白质磷酸化序列作为数据集构建预测模型HPSP(Human Phosphorylation Site Predictor)。结合信息熵与密度熵、氨基酸组成、氨基酸物理化学属性以及KNN距离四类特征对序列片段进行编码,引入F值检验方法对物理化学属性特征筛选。融合提取与筛选后的特征,选用支持向量机算法搭建预测模型,十倍交叉验证结果显示信息熵与密度熵特征与其他特征相比能够有效提高磷酸化修饰预测性能;利用独立测试集与已有模型相比,HPSP预测模型具有良好的预测性能。(2)基于集成学习的酵母菌磷酸化修饰位点预测研究。针对酵母菌磷酸化修饰提出一种基于随机森林的集成学习策略YPSP(Yeast Phosphorylation Site Predictor),并根据K-spaced特征提出结合位置信息的pos-K-spaced特征。从数据集中提取pos-K-spaced特征、二进制编码特征、物理化学属性特征、KNN距离特征以及位置特定评分矩阵特征共5种特征,用每一种单一特征训练一个随机森林模型,随机森林模型的预测结果显示pos-K-spaced特征能够有效区分磷酸化修饰位点与非磷酸化修饰位点。然后利用逻辑回归算法对5个随机森林的输出结果进行集成得到最终的预测模型。实验结果表明,本文提出的集成模型YPSP相比于利用单一机器学习算法搭建的模型更能准确的预测磷酸化修饰位点。
其他文献
图像作为人类获取视觉信息的一种重要媒介,在医疗、军事等领域都扮演着至关重要的角色.然而在图像的采集、传输等过程中,由于设备及人为等各种因素的影响,图像经常受到噪声的
高光谱图像包含了丰富的光谱信息,在遥感对地观测系统中具有重要的地位,并越来越广泛的应用于地物勘探、农业遥感、海洋遥感、环境监测等领域。在高光谱图像分类的研究中,已
随着以太网类型的传输技术在工业控制等相关领域的成熟与发展,各种类型的现场总线技术已被广泛使用,其中最典型的是Ether CAT型总线,它依靠高传输速度,传输精度高,适用性广,
季鳞盐离子液体作为一种新型的自组装功能材料,目前广泛应用于有机化学、电化学、功能材料、生物医药等重多领域。现阶段,国内外对于季鳞盐的自组装结构设计及构性关系未进行
由于大气的湍流影响,光在大气传播过程中会出现不同程度的波前畸变,波前畸变会给天文观测带来极大的阻碍,使得天文目标的高清晰成像变得异常困难。自适应光学(Adaptive Optics
社会保险服务是公共服务的一部分,也是我国当前“放管服”改革的重要内容之一。各级社会保险经办机构是政府提供社会保险服务的重要载体,也是我国社会保险政策的执行机构和管
我国大多数油田采用注水方式开发,目前经过几十年的开发,大多数水驱油田已经进入水驱开发后期,也就是高含水或者特高含水期。大庆油田南二三区高台子油层整体为三类油层,目前
随着移动互联网的快速发展和智能终端技术的不断更新,无线移动用户的数量在过去几年中不断增加。预计这种趋势将在未来几年内会一直持续。考虑到用户数量的蓬勃发展,无线网络
人工智能作为21世纪的三大尖端技术之一,对社会经济和人们的生活方式产生了深远的影响,正引领着时代发展的潮流。在人工智能的发展历程中,神经科学一直都起着推动作用,被称为
波达方向(Direction of Arrival,DOA)估计是阵列信号处理的重要分支,广泛应用于雷达、声呐、地质勘测、医学诊断等领域,但传统子空间类算法通常需要特征值分解等复杂计算,增