基于融合特征与集成学习方法的膜蛋白类型预测研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:gao1980623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
膜蛋白是细胞功能的主要承担者,其功能与其结构类型密切相关,因此,膜蛋白类型的鉴定是生物信息学中的一项重要课题。传统的生物实验是鉴定膜蛋白类型的最可靠方法,但它效率低、成本高。随着后基因组时代的到来,大量未注释的膜蛋白被发现,使用传统生物实验难以鉴定所有的膜蛋白的类型。基于计算的方法可以有效提高膜蛋白类型鉴定的效率,并降低成本,机器学习方法就是常用的方法之一。已有的膜蛋白特征提取方法主要从膜蛋白序列信息中提取特征,本文提出了一种基于蛋白质二级结构信息的膜蛋白特征提取方法,并将其融入现有的序列特征。通过对比实验结果表明,融合特征的分类效果优于原始序列特征。最后,基于集成学习方法构建膜蛋白分类模型。本文主要工作如下:(1)基于蛋白质二级结构信息提取膜蛋白特征。本文基于蛋白质3态二级结构序列提出拆分蛋白质二级结构组成的特征提取方法。通过对比实验发现从蛋白质二级结构中提取的特征与从蛋白质序列中提取的特征有互补性。(2)融合蛋白质二级结构特征与序列特征。为了使提取到的特征包含更多的隐藏信息,本文将伪氨基酸组成和拆分氨基酸组成两种序列特征分别与蛋白质二级结构特征融合,得到两种新的膜蛋白特征提取方法。并通过对比实验证明了融合特征方法的有效性。(3)构建膜蛋白集成学习分类模型。为了进一步提升模型的预测精度,融合三个特征,基于Voting和Stacking两个集成学习框架,使用随机森林、支持向量机和K近邻作为基分类器,构建膜蛋白分类模型。实验结果表明,集成学习方法有效的提高了模型的预测精度,优于现有的几种膜蛋白分类的机器学习模型。
其他文献
贫困问题是一个复合型问题,不仅包括经济层面的,更是涉及文化、社会等层面。可以说人类发展史就是一部扶贫史,消除贫困是全人类的共同目标。中国共产党经过百年的不断奋斗,带领全国人民胜利打赢脱贫攻坚战,全面消除绝对贫困问题,形成具有中国特色的扶贫道路。回顾中国扶贫史,中国扶贫工作始终在“三位一体”大扶贫格局下开展,即以专项扶贫、行业扶贫、社会扶贫等多方力量、多种举措有机结合、互为支撑。同时中国共产党不断在
学位
单细胞转录组(scRNA-seq)测序能够在单个细胞的分辨率上表示转录组学图谱,它能够揭示细胞之间的异质性,在生命科学领域有着十分重要的作用。而聚类是分析scRNA-seq数据以揭示组织复杂性的关键步骤。近年来,基于深度学习的单细胞聚类算法由于将降维与聚类相结合而受到广泛的关注,但是这些方法对于具有高丢失率或噪声的scRNA-seq数据集的聚类效果仍不稳定。本文充分考虑数据特性,对单细胞数据集的聚
学位
氧化镓(Ga2O3)作为新型宽禁带半导体材料,存在α、β、γ、δ、ε和k六种晶体,禁带宽度约为4.9e V,具有优异的物理化学性能,引起了诸多学者的广泛关注。外延薄膜是器件的有源层,高质量的Ga2O3外延膜是制备各类器件的基石。目前,Ga2O3外延薄膜生长技术存在生长温度高、生长速率低、薄膜质量差等问题,且在生长过程中薄膜会引入氧空位等缺陷,造成所制备的器件性能较差。等离子体是物质的第四态,通过等
学位
准规则斑图作为一种数字艺术图形,具备局部图案呈几何状、纹样形式感强、时尚性突出等特点,被广泛应用于纺织品的花型设计之中。准规则斑图由数学模型计算所得哈密顿量对应的等高曲线族构成,传统生成方法需对哈密顿量进行等高线分割以形成图形形状,再对相邻等高线之间的区域进行色彩赋值。其中等高线分割方式依据人工设定,可能使得部分分割区间较小,在图形中表现为“窄色带”分布;同时色彩亦依据人工设定,可能使得色彩的随机
学位
本次课题基于社会医学科普的需求,将医学科普进行视觉化设计的同时,从情感关怀的角度结合趣味性展开研究,并以糖尿病科普为例进行设计实践。本文通过对医学科普视觉化设计的发展及现状研究,提出趣味性表达以改善当下医学科普设计存在的相关问题,探索在医学科普视觉化设计中构建趣味性的可能,从而对医学科普信息的传播进行强化。望通过此次研究让医学科普变得更加具备有效性及趣味性,促进糖尿病科普效果,提高大众的防治意识。
学位
氧化亚铜(Cu2O)具有高效的抗菌性和光催化活性等,在抗菌纺织品上被广泛应用。氧化石墨烯(GO)作为一种新型二维材料,具有较高的比表面积和一定的抗菌能力,近年来在功能纺织品领域引起广泛关注。通过GO与Cu2O之间的复合协效,对聚酯(PET)织物进行抗菌功能整理,得到高效持久的抗菌PET织物,并系统地对比分析了涂层整理前后织物抗菌活性。本文的主要研究工作如下:(1)以硫酸铜(CuSO4)为原料,通过
学位
在如今信息互联的社会中,液晶屏因其高画质、恒定发光、低功耗等优点被广泛应用于各个行业中。大尺寸导光板作为液晶屏显示组件的关键组成部件,其质量特别重要,直接关系到液晶屏的显像效果。然而在导光板的生产加工过程中,由于原材料不洁净,设备的磨损,工艺制约等因素,生产完成的导光板不可避免地会产生各类加工缺陷,如点伤、脏污、线划伤等。目前,导光板生产厂家对导光板的质量检测大多采用人工检测的方式。员工需要在密闭
学位
林业有害生物种类繁多且分布范围广,每年对我国林业造成巨大的经济损失。因此,对林业有害生物进行及时、准确地监测是合理制定林业有害生物防治方案和减少经济损失的前提。其中,对林业有害生物准确识别是林业防控工作的首要任务。然而现有的林业有害生物识别方法主要是依靠工作人员凭经验识别,效率低,客观性差。针对上述问题,本文建立了基于深度双线性转换注意力机制网络的林业有害生物识别模型,开发了基于微信小程序的林业有
学位
互联网技术与通讯设备的高速发展下,传统媒体影响力日渐减弱,以数字化为驱动的软实力将是未来汽车市场竞争的主动力。基于大数据分析的集客式营销利用精准、有效、丰富的信息内容,通过多样化的传播途径进行分众而有效的推广,能吸引潜在顾客主动上门,已越来越受汽车企业的欢迎。目前,各汽车企业都在合作汽车之家、易车、懂车帝等网络集客渠道,希望通过集客式营销寻找到更精准的潜在顾客,获得更高收益转化的同时能减少市场营销
学位
云计算利用虚拟化技术将各类软硬件资源抽象并形成资源池,通过网络按需供应给用户。随着信息技术的发展,Docker作为容器技术的代表在业界得到了广泛的应用,但其只提供镜像和容器功能,因此能够高效进行资源调度以及容器的管理和编排的容器云平台显得尤为重要。Kubernetes作为一款开源平台已在云计算领域被广泛应用,其优异的容器编排能力为用户提供了更为便捷可靠的服务,然而其自身的资源调度策略仍有不足之处,
学位