基于机器学习和多源数据的蛋白质功能预测研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:xushuai880620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来高通量实验方法快速发展,随之产生大量新型蛋白质,发现的蛋白质数量与其功能注释之间的差距越来越大,蛋白质功能预测成为分子生物学研究领域的核心问题。传统的蛋白质功能预测方法耗时且昂贵,依靠单一数据源的特征信息表达不全面,因此如何选用合适的机器学习方法,构建有效的模型来融合多种生物数据,对预测蛋白质功能具有重要意义。由于只使用单数据源时预测能力有限,本文利用机器学习的方法提取多种数据源特征,对蛋白质功能预测问题进行探讨和研究。首先,针对仅使用网络结构不能全面描述蛋白质信息的问题,提出基于SVM和多源数据的蛋白质功能预测方法,选用蛋白质相互作用(PPI)网络和蛋白质序列两种信息源,从不同角度提取蛋白质特征并采用结果融合策略进行分类预测。使用深度自动编码器融合多个异构PPI网络进行节点特征学习,利用支持向量机分类预测;再利用位置特异性打分矩阵和高斯核相似度获得序列相似网络,计算最大相似概率获得序列的类别概率向量。最后融合两种类别概率向量,利用支持向量机进行分类。多种信息源的结合有效提高了正确注释蛋白质功能的准确率。其次,针对蛋白质网络数据稀疏性问题,提出基于网络和节点属性的蛋白质功能预测方法,综合考虑拓扑结构、序列网络和属性特征以实现节点的准确分类。通过使用自动编码器表征PPI网络特征、用变分图自动编码器表征序列网络、节点属性的特征,融合这三种特征,并利用支持向量机分类预测。不同网络和节点属性的特征融合,增强了蛋白质信息的有效表示。最后,在真实的数据集上进行实验验证,对预测模型性能进行评估,通过多组对比实验分析证明基于机器学习和多源数据的蛋白质功能预测方法的有效性。
其他文献
石油井架作为油田勘探与开发中大型高耸承载构件,是不可或缺的。相比于其他钢结构它的工作环境更恶劣,并且因为它具有很大的长细比,所以在石油井架的结构设计时风载荷便成为了其重点设计载荷,因此,井架的承受载荷的大小以及安全因素是衡量石油井架结构抗风性的重要指标。目前,对石油井架的风载荷分析大多集中于仿真模拟,为了更好更直观的研究风载荷对石油井架的影响,本文提出了一种操作简单,适用性强的石油井架风载模拟加载
在自然界中,人类拥有极为出色的协同运动能力,能够根据实际情况及时调整协同策略以适应运动任务目标。然而由于人体复杂生理结构和运动习惯的影响,运动协同特征具有个性化、差异化等特点,使得人体节律运动协同特征的提取与刻画成为人体运动研究中最具挑战的课题之一。因此,如何有效提取人体节律运动协同特征,实现协同运动中各关节间耦合协同规律的准确刻画成为亟需解决的问题。针对人体节律运动协同特征提取难度大,刻画困难等
挖掘机铲臂关节处的滑动轴承作为主要易损件之一,其使用寿命和服役性能直接影响着挖掘机的工作可靠性。开展滑动轴承寿命评价与服役性能研究工作,对于提高挖掘机整体性能具有重要的意义。本课题研制了一种新型挖掘机铲臂轴承试验机,对滑动轴承的使用寿命与服役性能进行了在线评估,并建立了挖掘机铲臂轴承最优摩擦磨损性能的对应条件。主要研究内容如下:挖掘机铲臂轴承试验机总体设计:根据滑动轴承寿命试验原理及技术要求,确定
燃油管路作为飞机燃油系统的重要组成部分,是输送燃料的唯一通道,工作时管内流体与管壁结构相互作用产生流固耦合行为,严重影响管路的安全性和可靠性。本课题围绕民用飞机燃油管路流固耦合振动作用机理问题,开展燃油管路流固耦合动力学模型构建、频域求解和卡箍约束作用机理的研究工作,并深入分析其频域特性。研究成果对精确揭示民机燃油管路振动特性,提高管路的安全性和可靠性具有重大意义。主要研究工作及内容如下:(1)对
随着城市规模的日益扩大和人们生活质量的提升,各种污染物的排放也逐渐增加,出现了许多环境污染问题,空气质量逐渐成为了人们关注的话题,准确预测空气质量指数(AQI)是解决空气污染问题的关键前提。然而,空气质量指数的非线性变化取决于多种因素,在以往对于空气质量预测的研究中,通常没有对冗余的特征进行处理,数据对预测模型的影响也很少考虑。本文从数据本身出发,考虑特征的相关度和冗余度,对空气质量预测模型进行研
拉弯工艺是拉伸和弯曲结合的一种复合工艺,拉弯产品被广泛应用于航天、建筑、汽车等领域。随着产品精度要求的不断提高,拉弯工艺的理论研究和工艺控制方法的改进都不曾间断。钛合金构件由于具有重量轻、强度高的特点,因而越来越多的被应用于生产制造当中。常温下,钛合金材料具有较高的屈服强度,发生塑形变形的范围窄,易出现开裂,且回弹量大的问题,因此对于钛合金型材一般采用热成形的方式进行加工。通过对型材在水平和垂直两
单幅图像去雨作为计算机视觉领域的基本问题之一,其目的是从单幅雨图中去除雨线并得到干净清晰的背景图像。传统的去雨算法虽能去除一定雨线,但计算过程复杂,去雨后的图像存在颜色失真、细节信息丢失等问题。近年来兴起的深度学习算法凭借其强大的特征提取能力在图像去雨领域得到广泛应用。为提升单幅图像的去雨效果,该文基于深度学习算法对单幅图像去雨问题进行研究,相关内容如下:首先,提出基于多尺度特征学习的递归单幅图像
雾天大气中的悬浮颗粒会增强光的散射和折射现象,使得拍摄图像的清晰度和辨识度都大幅降低,远处目标的细节大量丢失,并且出现模糊伪影、色彩偏移等现象。图像去雾的主要思想是采取一定的方法在保留图像信息的同时最大程度减小悬浮粒子对图像造成的负面影响,从而恢复图像的对比度和饱和度。该文主要采用深度学习和自然图像先验相结合的方法来进一步提高算法的去雾性能。首先,该文从注意力机制的角度出发,设计了一种将通道注意力
视频显著性检测模型可以快速的定位视频显著性区域,提高计算资源的分配效率。随着视频硬件设备的发展和软件技术的提升,视频显著性检测研究的重要性和迫切性日益凸显。本文通过对基于3D卷积神经网络的视频人眼注视点检测模型进行研究,对模型中的解码网络进行改进并加入通道注意力机制,达到减轻模型体积和提升视频显著性检测模型性能的效果。本文主要研究内容如下。首先,针对TASEDNet视频显著性检测模型体积较大的问题
针对特定癌症类型,寻找协同的药物组合对于提高癌症疗效至关重要。本文基于药物基因组大数据与高通量药物组合协同得分,构建计算模型预测抗癌药物对(两两药物组合)的协同作用。研究内容对于协同药物筛查实验具有重要的指导意义,有助于缩短实验确定的药物组合应用于临床的研究进程。本文基于癌细胞系的基因表达信息和药物的三类特征,将过滤式与封装式方法相结合提取特征基因,构造了一种基于方差排序和深度神经网络的计算模型(