基于氨基酸序列的蛋白质交互作用预测方法研究

来源 :天津大学 | 被引量 : 1次 | 上传用户:sairei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着后基因组时代,蛋白质组学的相关研究已经如火如荼的展开。由于高通量实验技术的发展,科研人员已经获得了大量的蛋白质组学数据。过去的十余年内,大量的基于计算手段的研究方法已经被开发和使用。这些计算工具可以分析和研究已有蛋白质相互作用数据,为生物实验提供了可信度较高的分析预测结果,从而提高了生物科研人员的实验效率,减少了不必要的人力和财力。蛋白质是生命活动的主要载体,是功能的主要执行者。蛋白质之间的相互作用,以及蛋白质与其他分子、离子之间的相互作用,是蛋白质组学领域研究的热点和难点问题。传统生物实验方法用于测定大量蛋白质相互作用耗时耗力,并且有些实验结果会出现假阳性和假阴性。近些年,研究人员设计出了基于计算模型的预测方法,可以分析蛋白质相互作用的大量数据(包括:蛋白质之间相互作用,蛋白质与药物分子、核苷酸分子、离子等相互作用作用)。但是,其中很多计算方法有着计算量大、不能大规模预测、预测精度低、所需要的先验信息(如,蛋白质组的三维结构信息)难以获取等缺点。因此,本文从计算角度研究蛋白质相互作用,主要研究基于氨基酸序列的蛋白质相互作用预测方法。本文的工作包含以下几个点:(1)蛋白质-蛋白质相互作用关系预测。本文提出了两种有效的序列特征提取方法。第一种为基于互信息的计算方法。蛋白质序列上20种氨基酸的排列组合,在一定程度上决定了蛋白质的二级结构。二级结构又反应了蛋白质三维结构的部分信息。所以,氨基酸的排列组合频率可以描述蛋白质的部分二级结构表达。在此基础上,本文首次利用信息论理论,计算并描述蛋白质序列特征。通过计算氨基酸在蛋白质序列中的多元互信息,描述各种氨基酸组合在该序列中的组分。计算后的数值构成这一蛋白质的特征向量,利用机器学习算法,进行训练和识别。第二种方法为基于氨基酸连接概率矩阵的方法。从大量蛋白质相互作用的复合物三维结构中,构建20种氨基酸间相互接触的能量熵矩阵。利用该矩阵把蛋白质序列表示成一个等尺度的矩阵。利用梯度直方图算法和奇异值分解方法分别提取该蛋白矩阵的纹理细节和矩阵特征值。结合上述两种特征,利用随机森林构建预测模型,分析和预测蛋白质相互作用关系。上述方法在12种公共蛋白质-蛋白质相互作用数据集上进行测试和验证。结果表明,本文提出的方法在大部分数据集上超过了前人的优秀方法。同时,本方法还在三个真实的蛋白质作用网络上进行了实际评估。预测结果相比前人工作,有明显提升。(2)基于计算方法的药物-标靶蛋白相互作用预测。该领域大多数方法仅使用药物相似性或靶标蛋白质相似性信息来描述药物分子和蛋白质序列,并不能完全捕获药物-标靶蛋白相互作用的重要信息。为了细化药物、标靶蛋白的描述,本研究利用蛋白质序列的多元互信息特征、药物分子子结构指纹特征和药物-标靶蛋白质相互作用网络的局部拓扑信息,构建药物-标靶相互作用的预测模型。同时,利用特征选择算法,分析特征的重要性,筛选掉噪声特征,以提高模型预测能力。本研究提出的方法在四个金标准数据集上进行了验证。本文利用这四个标准数据集分别进行了平衡和非平衡两种类型的验证手段。结果表明,本文的方法在部分数据集上超过了前人的优秀方法。在其余数据集上与当前主流方法持平。(3)蛋白质-配体结合位点预测。该研究方向的大部分方法都是基于蛋白质三维结构信息。然而,蛋白质已知序列数量远大于已知结构数量,并且有部分蛋白质不能成功结晶,无法用X射线衍射分析,所以本研究采用了基于序列的位点预测方法。首先,利用余弦离散变换,压缩蛋白序列的位置特异性矩阵,以提取有效特征,去除噪音特征,调高模型的计算效率。利用集成加权稀疏表达模型构建分类器,预测配体结合位点。加权稀疏表达模型可以有效剔除噪音样本,集成模型中使用随机欠采样可以提高模型的泛化能力。本文提出的方法在12个包含训练集和独立测试的蛋白质-配体结合位点公共数据集上进行了测试。这些独立测试集内的蛋白质序列与训练集中的序列相似度低于40%。测试过程中,本研究还与当前主流方法做了比较。实验结果表明,本文方法在八个数据集上取得了最好的预测性能。在剩下的四个数据集上,性能也超过了大部分计算方法。本研究提出的基于氨基酸序列的蛋白质交互作用预测和蛋白质-配体结合位点预测方法与基于结构信息的方法相比,具有以下优势:(1)单个蛋白质序列的计算量小,在计算效率上高于基于结构的方法;(2)蛋白质序列数量大于结构数量,相对容易获取,可实现大规模的分析和预测;(3)保证计算效率的前提下,利用氨基酸序列构建的预测模型可以保证一定的预测性能,与基于结构的方法相比区别不大。本文提出的基于多元信息的药物-蛋白质相互作用预测的方法与基于相似度矩阵的方法相比,具有以下优势:(1)较全面的考虑了蛋白质分子的物理和化学属性、药物子结构属性和局部网络拓扑;(2)采用合理的特征选择方法消除噪音特征并获得最优特征子集。
其他文献
对照饮片是近年来继对照药材、对照提取物后提出的中药对照物质,其研究应用对中药饮片的加工、生产及质量控制具有十分重要的意义。本论文选取了木瓜、山楂、炒山楂、焦山楂、王不留行、炒王不留行六种中药对照饮片从原药材、饮片炮制工艺、均匀化工艺、炮制机理等方面进行系统研究。对不同品种木瓜进行质量评价及对比,发现湖北资木瓜为优质品种,且木瓜果皮作为潜在的资源具有较大的开发价值;考察不同提取溶剂对木瓜中活性成分及
学位
随着化石燃料的不断消耗和环境的日益恶化,生物柴油作为可再生的清洁替代能源而备受关注。本研究立足于我国丰富的地沟油资源,将磁学与细胞固定化技术相结合,制备了一种特殊的磁性全细胞催化剂,并在自主设计的新型磁流化床反应装置中将地沟油转化为生物柴油。该方法克服了化学催化法能耗高、环境污染严重,以及脂肪酶催化法工艺复杂、成本高等缺点,具有工业化应用的潜力。借助超声分散技术,并通过在合成过程中添加聚乙二醇和油
学位
光催化技术是太阳能开发和利用的一种重要方法。半导体光催化剂是该技术的核心部分,其质量直接决定着反应效率。本研究选取TiO2光催化剂为研究对象,通过半导体复合的方法将窄带隙有机半导体石墨相氮化碳g-C3N4与其结合以提高TiO2的光催化效率,并在此基础上结合形貌、晶面以及能带调控等方法进一步提高光能利用率和量子效率。研究方法如下:以三聚氰胺为前驱体,采用热解法制备了g-C3N4。并将不同质量的g-C
学位
对于企业而言,基层组织是党建思想政治工作的重要内容,应当紧密连接起企业的生产经营管理,双管齐下,保障企业得到长久化的发展。因此,只有高度结合企业生产经营管理理念与思想政治工作,积极响应各项上级党委工作并树立切实可行的基层党务工作目标,对企业的制度进行不断的优化与创新,为企业的发展提供充足的保障。本文就企业思想政治工作与生产经营管理的结合作出探究,着重分析当下企业思想政治工作与生产经营管理结合过程中
期刊
当前,美联储资产负债表已成为研究美联储施政方针的重要工具之一。美联储的重要操作在其资产负债表中大多都有所体现。通过研究美联储资产负债表的演变,剖析演变历史脉络背后所蕴含的政策含义,有助于我们更好地认识美联储货币政策的主要目标、操作框架、重要工具、传导渠道、溢出效应。本文从美联储资产负债表的关键科目入手,重点分析关键科目背后折射出的货币政策内涵,并在此基础上探讨美联储加息和缩表对金融市场的影响。研究
期刊
真菌在陆地和淡水生态系统的物质循环中扮演着至关重要的角色,具有很高的生物多样性,发挥着重要的生态功能。然而,在近海生态系统中,浮游真菌的生态角色在很大程度上是未知的,对其生物量、丰度和多样性的测定仍然是具有挑战性的任务。本文利用高效液相色谱法研究了浮游真菌细胞中麦角固醇的含量,发现四种浮游真菌(Simplicillium sp.,Penicillium sp.,Aspergillus sp.和Rh
学位
本论文首次研究了我国不同红树林近岸海域可培养破囊壶菌的多样性;对高产DHA的破囊壶菌菌株进行了筛选;对破囊壶菌生产脂肪酸的培养条件进行了优化;同时对破囊壶菌的脂肪酸制备的生物柴油的质量进行了评价;探讨了利用破囊壶菌工业化生产DHA和生物柴油的潜力。(1)采用直接平板法和花粉诱钓法,首次对我国不同红树林近岸海域的可培养破囊壶菌多样性进行了研究,并分离得到了200多个破囊壶菌单菌落。使用分子生物学和形
学位
学位
随着工农业生产的飞速发展,重金属污染问题日益严重,镉(Cd)因毒性高、移动性大、易进入食物链而备受关注。近些年来,欧美等国家广泛应用柳树修复土壤重金属污染,柳树还能取代煤和油作燃料,使生物质生产和植物修复相结合。本论文选用Cd为胁迫因子、苗期旱柳为研究对象,开展Cd胁迫下旱柳吸收、积累、毒害和抗性等的研究工作。结果如下:1.Cd抑制了旱柳的生长,引起ROS的积累,同时启动抗氧化酶系统保护植物免受过
学位
能源和环境问题是影响社会可持续发展的重要因素,建筑的居用环境是人们追求幸福生活的重要落脚点,根据建筑使用人的需求进行建筑节能,一方面可以满足建筑的使用功能,同时从能源需求产生的机理上挖掘节能潜力。本文以人员用能行为为核心,沿人员用能需求产生和流动的方向,将建筑用电需求分别在单人层面、单体建筑层面和多建筑耦合层面进行诠释。本文以多Agent建模为研究方法,组建了多层递阶Agent模型,获得了各层面电
学位