基于机器学习的蛋白亚细胞定位预测

来源 :复旦大学 | 被引量 : 7次 | 上传用户:yurui4010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白亚细胞定位是分子细胞生物学和蛋白组学的一个重要研究课题,与蛋白功能、代谢、信号传导和生物过程紧密相关,对生物学基础研究和生物医药研究有着重要作用。基于计算的蛋白亚细胞定位预测具有廉价、高效、适用范围广的优点,有可能通过大量蛋白数据分析寻找有效蛋白特征,推断出蛋白特征与蛋白亚细胞定位之间的统计规律。近几年,尽管蛋白亚细胞定位预测研究已取得比较大的进展,但现有预测方法具有以下几个不足:第一、蛋白特征信息挖掘深度不够,忽略了某些重要蛋白特征信息;第二、集成多个异构数据源时,一般采用异构特征空间拼接或者采用基于多数投票的集成学习方法,没有考虑各种特征数据的重要性和数据缺失(data unavailability)问题;第三、现有蛋白亚细胞定位预测模型在不平衡蛋白数据、微观蛋白亚细胞定位和大规模蛋白亚细胞定位几个问题上,预测性能不很理想。本文从机器学习角度研究蛋白亚细胞定位预测新方法,提高蛋白亚细胞定位预测的性能,并使预测模型具有实际生物学意义和合理的生物学解释。本文主要贡献概括如下:1、引入多示例学习方法(multi-instance learning),挖掘蛋白序列结构域组成信息、结构域序列信息、结构域边界以及结构域序信息。一方面引入多示例学习(multi-instance learning)模型捕获蛋白序列局部结构信息,另一方面引入多类标学习(multi-label learning)处理蛋白多个亚细胞位置问题,为蛋白亚细胞定位预测提供了一种新思路。这种多示例多类标学习模型以包—示例形式表示蛋白—结构域之间的整体与局部关系,能有效地挖掘蛋白结序列局部结构信息,在Gram阳性细菌蛋白实验上取得了与基于基因本体知识的k-近邻集成学习模型相当的预测性能。2、提出了一种谱核函数SpectrumKernel+,将多种氨基酸分类信息嵌入到k-mer特征表示中,在此基础上模拟蛋白序列多种可能的模体(motif)进化模式。SpectrumKernel+从蛋白序列进化生化约束角度,解释k-mer中嵌入氨基酸分类信息的生物学意义,与传统谱核函数(spectrum kernel)和(k,l)不匹配核函数((k,l)mismatch kernel)建立联系,具有更合理的生物学意义和直观的生物学解释。SpectrumKernel+综合考虑多种氨基酸分类信息,度量两条蛋白序列之间多种模体进化模式差异和模体分布差异,在此基础上更精确地度量蛋白序列之间相似性。相对于一般蛋白亚细胞定位预测问题,蛋白亚细胞核定位预测(protein subnuclear localization)更具有挑战性,两个亚细胞核蛋白数据集上实验表明,SpectrumKernel+预测性能显著优于基准模型。3、提出了一种融合多示例核函数HoMIKernel+,嵌入同源蛋白序列细粒度信息。同源序列进化上的保守性和趋异性决定了同源序列信息在描述目标蛋白亚细胞定位模式上的含糊性,这种含糊性与多示例学习方法中正示例描述类别的含糊性是一致的,是实际生物学意义和多示例学习方法的结合点,也是我们提出HoMIKernel+函数的出发点。HoMIKernel+利用同源蛋白序列集合的k-mer特征表示,共同描述目标蛋白,增强了目标蛋白的模体分布信息,抑制了目标蛋白上可能的噪音。一个原核蛋白数据和三个真核蛋白数据上实验表明,HoMIKernel+预测性能优于基准模型;嵌入同源蛋白序列有助于改善模型的预测性能;多种多示例核函数融合能够显著地提高模型的预测能力。4、提出了同源基因本体知识迁移学习、统计相关基因本体知识迁移学习两种蛋白亚细胞定位预测方法,设计了一个简单非参交叉验证方法估计核函数线性组合权重,实现同源相关蛋白之间知识共享,降低核函数权重估计的时空复杂性。通过直观生物意义建立目标蛋白和辅助蛋白之间联系,将同源蛋白基因本体知识、基因本体库内统计相关的基因本体知识迁移给目标蛋白,在此基础上构建一个多核学习模型,用于蛋白亚细胞定位预测。引入同源基因本体知识迁移引具有以下几个优点:丰富目标蛋白基因本体知识、克服新蛋白或者生物实验证据较少蛋白的基因本体知识缺失问题;引入统计相关基因本体知识迁移具有以下几个优点:丰富蛋白基因本体知识、调整基因本体三方面知识的权重分布、嵌入基因本体语义距离信息、调整蛋白基因本体注释覆盖率、降低测试基因本体注释不命中率、避免预测时模型重新训练。核函数权重估计考虑预测性能偏向性指标Matthew相关系数(MCC),能较好地适应大规模不平衡蛋白数据。8个蛋白数据集上实验结果表明,同源相关蛋白知识迁移学习模型能够显著提高蛋白亚细胞定位预测性能,一定程度上抑制了基因本体知识迁移可能带来的噪音和异常影响,较好地克服了大类偏向性,能够很好地处理大规模不平衡蛋白数据。
其他文献
本研究采用"重要他人"观点,探讨"重要他人"如何解决他们必须有效执行其反对意见的"交际难题"?研究发现,为了解决必须有效执行其反对意见的"交际难题",本研究"重要他人"并未直
文章基于会计处理对称性,对融资租赁中租赁期开始日出租人会计处理存在争议的方面进行了分析,并利用会计处理对称性的思想完善对融资租赁的会计处理。
电法勘探在探测采空区方面也有了很大的发展,高密度电法是集中了电剖面法和电测深法,适用于平原、浅层300 m的探测深度。瞬变电磁法适用于800 m的探测深度,但易受干扰。针对
目的探讨血浆中性粒细胞明胶酶相关脂质运载蛋白(NGAL)、半胱氨酸蛋白酶抑制剂C(CysC)和尿N-乙酰-β-D-氨基葡萄糖苷酶与尿肌酐的比值(NAG/Crea)联合检测对早期糖尿病肾病的
水体中存在的铅对自然生态环境和人类健康造成了严重的危害,治理废水中的铅污染也引起了人们越来越多的关注。蒙脱石作为一种层状的黏土矿物,在自然界中广泛存在,比表面积大,
经过多年探索,我国已初步建立了比较适合本国国情的城市住房政策体系,住房供给主要有三个途径:通过商品房来解决高收入家庭的住房需求;通过经济适用房来解决低收入家庭的住房
在京津冀协同发展的大背景下,北京市教委、天津市教委和河北省教育厅2019年1月在雄安新区共同发布了《京津冀教育协同发展行动计划(2018-2020)》。北京、天津和河北围绕京津冀教育协同发展体系,努力形成京津冀教育共建共享、互利共赢、协同发展新局面。本研究以京津冀职业教育协同发展作为研究重点,分析了京津冀职业教育协同发展的现状,探究、发现和总结了当前京津冀职业教育协同发展中存在的各类问题。本文以习
我国P2P行业发展迅猛,但平台欺诈、倒闭事件也层出不穷。如何从鱼龙混杂的P2P平台中识别、规避问题平台,是政府监管和投资者决策面临的重大问题。本文尝试对问题平台的基本特
论文首先就研究的背景和意义、现有的文献材料、以及全文的研究思路作了系统的分析和解释。其中文献综述是根据全文行文将涉及到的有关方面,对国外目前的森林保险制度和国内
在我国电力体制改革过程中,关于民用电力改革在2012年7月开始实施居民阶梯电价政策。在分析阶梯电价实施过程中暴露出的实际问题的基础上,必须适时修订和完善阶梯电价政策,使之产生更积极更广泛的效益。本文以邹城市为例,针对居民阶梯电价政策实施效果进行研究,采取文献分析法、问卷调查法、层次分析法等研究方法,针对居民阶梯电价政策进行模糊综合评价,研究视角以小见大,总结归纳了相关问题并针对性提出了居民阶梯电价