基于多信息融合的蛋白质功能预测相关问题研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:woaixuyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是组成生物体的基本物质和生命活动的载体,一切生命活动都是通过蛋白质的功能来行使的。例如,细胞外基质蛋白(extracellular matrix proteins,ECMP)积极地促进基本细胞过程,如分化,增殖,粘附,迁移和凋亡。研究清楚地表明细胞外基质蛋白在细胞黏附,增值和形态发生中起到主要作用。育性蛋白对生殖细胞的发育事件(精子发生、卵子发生)以及分化过程(胚胎发生、器官发生)起调节作用。噬菌体病毒蛋白(phage virion proteins,PVP)是感染性病毒颗粒的基本组成部分,在噬菌体与宿主细胞的相互作用中发挥重要的生物学作用。因此,蛋白质功能及其相关问题具有重要研究意义。近年来,生物科学与技术的迅猛发展使得生物信息爆炸性增长,目前分析蛋白质功能的方法和工具亟待更新,快速精准的预测蛋白质功能是当下最具挑战性的任务之一。为了进一步提升和改善蛋白质功能预测方法的精度和性能,本文基于多信息融合和机器学习,完成的主要工作和取得的成果如下:1.提出了基于多信息融合、弹性网和随机森林预测细胞外基质蛋白的方法—ECMP-RF。该方法首先采用分组重量编码(encoding based on grouped weight,EBGW)、伪氨基酸组成(pseudo amino-acid composition,Pse AAC)、伪位置特异性得分矩阵(pseudo position-specific score matrix,Pse PSSM)、组成、转变和分布(composition,transformation and distribution,CTD)、自相关描述符(autocorrelation descriptors,AD)提取蛋白质序列特征,融合5种特征编码信息构建初始特征空间。其次,使用合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)平衡样本数据,并通过弹性网筛选最优特征子集。最后选择随机森林作为分类器,构建细胞外基质蛋白预测模型。严格的留一法检验表明,在训练集和独立测试集上的均衡准确率分别达到97.3%和97.9%,优于其它细胞外基质蛋白预测方法。2.提出了基于多信息融合和Light GBM的育性蛋白预测方法—Fertility-Light GBM。首先,为了充分的表达蛋白质序列信息,该方法选择6种特征编码(Pse PSSM、氨基酸组成(amino-acid composition,AAC)、二肽组成(dipeptide composition,DC)、CTD、AD和EBGW)提取氨基酸残基信息,将编码后的特征向量进行融合获得初始特征空间。接着,为了筛选出有效特征,提高运算效率,利用最小绝对值收缩和选择算子(the least absolute shrinkage and selection operator,LASSO)选择最优特征子集。最后,将最优特征子集输入到Light GBM分类器中进行预测。五折交叉验证表明,在训练集和独立测试集上的准确率分别达到88.45%和91.48%,预测性能优于主流的育性蛋白预测方法。3.提出了基于梯度提升树-递归特征消除(gradient boosting decision tree-recursive feature elimination,GBDT-RFE)和Cat Boost的噬菌体病毒蛋白预测方法—PVP-Cat Boost。首先,该方法融合进化信息、序列信息和物理化学性质信息,构建初始特征空间。其次,通过GBDT-RFE降低高维数据维度。首次使用SMOTE-ENN(synthetic minority oversampling technique-edited nearest neighbours)削减数据类不平衡带来偏倚影响,提高模型对于少数类样本的学习能力。最后,使用Cat Boost对样本进行分类。通过留一法检验分别在训练集和独立测试集达到了97.93%和87.23%的预测精度。
其他文献
短程蒸馏技术虽在工业生产中广泛应用,但其分离机理尚未得到确切的解释,操作条件及冷热面间距等条件的选择仍需依赖经验。为了探讨短程蒸馏传热传质机理,以复杂长碳链的DHA-EPA作为研究对象,通过流体力学和分子动力学理论指导宏微观模拟仿真分析,最后通过实验进行验证。在CFD数值模拟中,采用了三维系统模型与蒸发冷凝单元体的二维模型相结合的方法进行计算,对冷热面的液膜状态、液膜温度和浓度的变化规律以及传热传
机载雷达在实现目标跟踪、空中警戒以及空中侦查等方面具有十分重要的作用,因此其在航空、导航、军事等领域占有重要地位。雷达伺服系统控制性能的优劣直接影响了其目标探测实时性、精确性和抗扰性等性能,因此对于雷达伺服控制系统的研究具有重要意义。雷达伺服控制系统设计主要存在两方面难点:一方面机载雷达工作环境恶劣,极易受风向、气流、温度等环境影响,同时机体震动、载机姿态等也会影响其稳定性与精确性。另一方面机载雷
四旋翼无人机现已广泛应用于各种民用与军事领域。其本身结构简单、体积较小、运动灵活、易于控制、飞行稳定且成本较低,上述特点使其相较于固定翼无人机来说,在某些特定场合使用效果更好。如高空摄像、无人机表演、地形勘探、电力巡航、军事侦察等。广泛的应用领域,广阔的市场需求,使得众多国家都将对四旋翼无人机的研究放到重点发展领域,众多无人机厂家及专家学者投身该领域,不断推动着四旋翼无人机的设计与理论研究。随着最
超疏水材料以其防水、防污、自清洁、可减少流体粘滞性等优良特性,在油/水分离应用上展现出了巨大优势。但仍存在一些需要克服的缺点,例如复杂的制造过程以及因使用后丢弃而造成的二次环境污染。因此选用一种生物可降解分子来构筑超疏水材料是非常必要的。聚乳酸(PLA)是目前应用最广泛的可生物降解材料之一。但PLA直接用作油/水分离膜的分离效率非常低,有必要对其进行疏水改性以提高分离效率。将纳米粒子与聚合物相结合
在工业过程中,大多数系统是非线性系统,非线性系统的参数估计已受到广泛关注。输出误差双线性参数系统是一类特殊的非线性系统,已应用于工程实践中。本文在最小二乘算法和梯度算法的基础上,利用递阶辨识原理、多新息辨识理论和数据滤波技术研究了两输入输出误差双线性参数系统的递推参数估计问题,主要工作如下:(1)针对两输入输出误差双线性参数系统,使用分解技术,将原始系统分解为三个子系统:第一个子系统包含与第一个输
飞机在降落过程中对跑道表面造成巨大的冲击,跑道表面的复合涂层对受冲击易破坏材料与易磨损材料具有非常可靠的保护作用,当前对复合涂层的接触冲击疲劳研究较少,为研究复合涂层在多次冲击下所能承受的冲击载荷及受冲击后的寿命问题,进一步探究复合涂层材料对机场跑道的保护作用。本文的研究内容如下。首先,分析飞机进场着陆时飞机轮胎对复合涂层的冲击过程,建立对称着陆与非对称着陆工况下的冲击模型并对复合涂层进行受力分析
随着人们生活品质和饮茶需求的不断提高,茶叶嫩芽的需求量越来越大。茶叶嫩芽智能化采摘的研究工作迫在眉睫,为此本文基于目标识别技术和机器人技术展开茶叶嫩芽视觉识别与采摘技术研究,并开发了茶叶嫩芽采摘机器人样机模型。在研究过程中,为了使设备能准确地选择性采摘符合要求的茶叶嫩芽,着重对嫩芽的视觉识别研究以及坐标输出,机械手的设计,机械手的路径控制和采摘顺序进行研究。重点考虑了嫩芽采摘点识别、机械手运动的坐
随着大数据时代的到来,许许多多的方面都会使用大数据信息,以便于更好的对研究项目进行了解,在目前的生物医学上也是要用到大数据为研究提供更多的素材。蛋白质折叠识别便是通过从生物的蛋白质序列出发对生物的蛋白质组学进行研究来提供有效便利的研究数据。这些方面的研究都对于医学的研究有重要的意义。本文主要对三个蛋白质数据DD数据集、RDD数据集和TG数据集进行研究。本课题基于机器学习对蛋白质折叠识别的研究,主要
本文针对大型企业集团知识创新与管理所面临的问题,提出了一系列构建知识管理体系的方法及其要素,制定了符合战略发展需要的知识管理新规划,以逐步打造"知识结构化、场景化、智能化"的知识管理体系,从制度建设、内容建设、平台建设到风险规避等方面同时开展知识管理体系建设,并阐述了各方法的实践经验。
多仓室流化床可降低颗粒返混和抑制热解气的二次裂解而成为生物质热解液化的理想反应器。掌握多仓室流化床中生物质热解状态下的运移机理是优化反应器和提高生物质热解效率的关键。目前仅是在冷态条件下对反应器内气固流化进行研究,但由于生物质热解机理复杂,常伴随动量、质量、能量传递,使得热解颗粒在多仓室流化床内的高效稳定流化研究尚不足;另一方面,实现不同热解年龄阶段的半焦颗粒稳定流化及降低热解各阶段颗粒的返混,同