基于信息熵与深度森林的蛋白质亚细胞位置预测

来源 :西南大学 | 被引量 : 0次 | 上传用户:caoyongtao1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的亚细胞位置信息能够为理解其生物学功能提供有力线索,在药物设计、病理分析等领域的研究中有着重要作用。在后基因组时代的当下,蛋白质测序技术取得了长足的发展。新发现蛋白质的数量正以惊人的速度飞速增长。如何快速准确的获取蛋白质的亚细胞位置信息已经成为了蛋白质组学中的一项关键任务。现有的蛋白质亚细胞位置识别方法主要分为基于生物化学实验的方法和基于计算的方法。其中,基于生物化学实验的方法是目前获取蛋白质亚细胞位置信息的主要手段。但是由于时间成本巨大,此类方法已经难以满足人们在识别效率方面的需求。与之相对,基于计算方法的出现为高效解决海量蛋白质序列的亚细胞位置识别问题提供了可行方案。近年来,人们对基于计算的蛋白质亚细胞位置预测方法做出了大量的研究。然而,受制于特征提取技术以及分类算法的性能,相关方法的预测准确率仍待提高。针对这一现状,本文在信息熵与深度森林的基础上对现有蛋白质亚细胞位置预测技术进行改进。在蛋白质特征提取方面,本文在分析了现有蛋白质特征提取技术缺陷的基础上,探究了基于信息熵的改进方案的有效性。在分类算法的构建方面,本文首先讨论了深度森林对蛋白质亚细胞位置预测问题的适用性,随后针对性的提出了两种改进模型以进一步提高最终预测结果的准确率。本文主要工作如下:(1)针对现有蛋白质序列信息特征提取技术以及进化信息特征提取技术的缺陷,提出了一种新的蛋白质特征提取方法,即IE-MoAC-PFR方法。其中,对于蛋白质序列信息特征的提取,针对传统n-gram-frequency特征不能有效表示蛋白质序列中氨基酸位置信息的缺陷,IE-MoAC-PFR方法使用信息熵刻画不同氨基酸片段在蛋白质序列中的分布情况,从而提升特征向量对蛋白质序列信息的反映能力。对于蛋白质进化信息特征的提取,针对传统基于自协方差的位置特异性矩阵的特征转换方法忽略了蛋白质序列中不同氨基酸在进化过程中的关系信息,IE-MoAC-PFR方法将自协方差扩展到位置特异性矩阵的不同列上。最后,为了能够更好地将蛋白质的序列信息和进化信息用于亚细胞位置的预测当中,IE-MoAC-PFR方法将所提取的蛋白质序列信息特征与进化信息特征结合生成蛋白质最终的特征向量。(2)针对蛋白质亚细胞位置预测问题小样本高维度的特性,提出一种深度森林改进算法,即FS-DF算法。为避免蛋白质高维稀疏特征向量中的无关特征以及噪声特征对模型最终预测准确率的影响,FS-DF算法将基于基尼系数的特征选择机制引入到深度森林的层级结构中。通过逐层筛除原始蛋白质特征向量中的无关特征以及噪声特征,相较于深度森林方法,FS-DF方法能够极大提升各层模型的性能,并在此基础上进行更为有效的表示学习。(3)FS-DF算法中,随着层级的不断加深,被筛除特征的不断增多可能会导致部分有用信息的丢失。为了更加充分地利用蛋白质特征向量中所蕴涵的亚细胞位置相关信息,从寻找并利用最优特征子集的角度出发,提出了一种新的深度森林改进算法,即Tabu-DF算法。在Tabu-DF算法中,面向最优特征子集的禁忌搜索机制被用于改进深度森林的层级结构。基于禁忌搜索可以避免陷入局部最优解的特性,Tabu-DF算法能够更有效地处理高维稀疏的蛋白质特征向量,并进一步提升最终预测结果的准确率。本文在Plant,NonPlant以及PsortNeg三个标准数据集上对新提出方法的性能进行了验证。实验结果显示,相较于现有的方法,新提出的方法能够有效提高蛋白质亚细胞位置预测结果的准确率,为相关研究提供更为有效的信息。
其他文献
应用Aspen Plus工业系统流程软件和Gibbs自由能最小化方法对粉煤气流床气化炉进行模拟.在设定粉煤气流床气化炉条件下,研究空气(O2占0.21,N2占0.79)与煤比和气化压力对有效气体(CO+H2)
参考有关文献和资料,结合临床实际,分析机体对糖皮质激素类、心血管系统粪、强心苷类、抗癌类、降糖类、解热镇痛抗风湿类等药物代谢的节律特点。临床用药若能依据人体的生物节
建立了基于中继线圈结构的磁耦合共振无线能量传输系统的等效电路模型,分析并推导出了无线能量传输效率表达式。在等效电路模型的基础上,理论分析了中继线圈的位置对于无线能
我国《普通高等学校图书馆规程》的修改与完善,既是社会文化发展进步的实然结果,也是高校图书馆发展理念的应然表述。发展理念的嬗变过程既体现了工具性和目的性双重价值的统一
概述了《普通高等学校图书馆规程》修订的环境因素、修订的必要性、修订的原则、进程和内容,解读了其条款的变化、增减,以及增减变化的背景和原委,简析了《普通高等学校图书馆规
随着经济发展与城市化进程不断地加快,乡村经济和文化不断呈现衰落的现象,乡村文化呈现出经济与文化发展不匹配,乡村文化呈现出传统文化的逐渐遗失。乡村振兴离不开乡村文化
本文从运动生理学角度分析了单纯性肥胖的致因、肥胖的危害、肥胖患者做运动应该注意的几个问题、介绍了一种比较有用的运动处方以及减肥成功后如何保持体型。
随着无人机技术的不断发展和进步,近年来无人机广泛应用于地球物理勘探行业。本次研发采用WH-110A型无人直升机搭载AARC51补偿仪、CS-VL铯光泵磁力仪、三通门磁力仪组成无人
生长在高CC2浓度(700±56μl·L-1)1周的香蕉叶片,其光合速率(Pn,μmol·m-2·s1)为5.14±0.32,较生长在大气CO2浓度(356±301μl·L-1)的高22.
自"十一五"以来,北京常住人口由1581万增长到2115万,人口的过度膨胀给首都带来生态、资源和环境等多个方面一系列严峻考验,引发政府严厉调控政策和措施出台.人口调控对首都职