基于层次分类及其集成策略的蛋白质三级结构预测

来源 :济南大学 | 被引量 : 0次 | 上传用户:chier00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质三级结构预测问题是当前蛋白质组学要解决的核心问题之一,这个问题的解决将有利于蛋白质功能的挖掘,进而深入理解生命现象的本质。关于蛋白质三级结构预测的众多研究方法中,机器学习方法作为人工智能研究领域的核心得到了广泛应用。基于机器学习的蛋白质三级结构预测的核心思想在于从给定的氨基酸序列中提取出有用信息,总结分析得出特定规律,从而实现对未知的氨基酸序列的有效预测。本文着眼于蛋白质序列的特征提取、构建合适的分类模型、采用集成策略三个角度,完成蛋白质三级结构的预测。本文的内容主要包括以下方面:本文提出了改进的伪氨基酸组成、分段距离频率特征提取方法,用于蛋白质三级结构的预测。改进的伪氨基酸组成就是用对氨基酸的物理化学性质进行主成分分析得到的三个主成分来代替伪氨基酸组成模型中三个成分。分段距离频率就是把待预测的蛋白质序列分成若干段,针对每一段蛋白质序列,再用距离频率方法提取特征。研究表明,单个的特征提取方法可能会丢失一些信息,本文将不同的特征进行了融合,目的在于提高最后的预测精度。本文利用柔性神经树作为基分类器,采用层次分类方法,提出新的集成策略来预测蛋白质的三级结构。柔性神经树是一种能够优化结构和参数的机器学习方法;层次分类是一种多分类方法;集成策略包括以下内容:用改进的伪氨基酸组成和理化组成的融合、分段距离频率和理化组成的融合、改进的伪氨基酸组成和分段距离频率的融合、改进的伪氨基酸组成、理化组成、分段距离频率、伪氨基酸组成七种特征构造了七种具有差异性的基分类器,并最终采用了选择性集成策略对这七个基分类器进行集成。通过实验结果以及和其他方法的对比,验证了本文所提出的方法的可行性和有效性。
其他文献
从认知隐喻学的角度解读英语小说中的概念隐喻,讨论隐喻的翻译策略,可以看出,并非只有新奇的隐喻才是翻译的重点。文学作品中不乏隐藏在文本中并不引入注目却决定着作品风格的隐
声音、图像,对图书馆来说,好像是不太时宜的东西。虽然说,现在图书馆中不大常看到“静”字,但安静的环境是图书馆读书的一个基本要求。
采用两套相同的小试USAB系统,分别接种普通厌氧颗粒污泥与好氧活性污泥的混合污泥和河底污泥,以含NH4+和NO2-的自配废水为进水,在30℃和水力停留时间分别为10 h和7 h的条件下
在经历2013年的震荡调整后,我国的宏观经济于2014年进入换档期,受三期叠加等因素影响,银行业的经营也进入了“新常态”。中小银行因为“船小好调头”,积极探索特色发展之路。大多中小银行通过加重投资类资产比重,以对冲利率市场化带来的利润率下滑,同时,积极发展同业业务,做大资产负债规模。但是,在监管趋严、利率市场化的背景下,该策略难以为继。由于其主要服务对象——中小企业受宏观不景气影响大,故以高峰期增
本文根据国内公共图书馆展览服务发展的现状,分析公共图书馆开展展览服务的优势与局限性,再结合自身实践和兄弟图书馆相关实际情况,探讨展览资源共享的可行性及优势,以优化公共图
党的十八大以来,习近平总书记提出精准扶贫和坚决打赢脱贫攻坚战的指示精神,针对不同贫困问题,需要各个行业都积极行动起来,共同为当代中国的精准扶贫作出应有的贡献。林业行
多巴胺有增加心肌收缩力,增加心输出量,使肾、肠系膜、冠脉及脑血管扩张、血流量增加,对周围血管有轻度收缩,升高动脉血压的作用,为临床上的常用药物.但由于多巴胺对局部组织
利用1961-2015年中国西南地区96个气象台站逐日气象观测资料,采用模糊信息分配法分析了我国西南地区出现冻雨天气时有利的气象要素变化规律。选取气温、湿度及日照时间确定了
Web2.0环境下,网络社群在互联网场域中逐渐成长,为社群成员提供了信息获取、知识分享与情感交流的媒介。在用户与资本的青睐下,美妆短视频社群成为网络社群的重要组成部分。