基于集成学习的蛋白质二级结构预测研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:between930
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质结构和功能的研究是现代生物信息学和计算生物学中最重要的主题之一,常使用数据挖掘和机器学习方法来执行预测或模式识别任务,帮助进行实验分析。近年来,深度学习在序列分析领域内得到了广泛应用,但还存在训练时间长、并行性差的问题。集成学习算法不仅可以高度并行化节省训练时间,还可以快速提升简单模型的整体预测准确率,但集成学习方法结合神经网络的方向则较少人研究。针对此,本文基于集成方法Bagging、Boosting和Stacking以及神经网络CNN,研究蛋白质二级结构预测中的8态分类问题,论文的主要贡献如下:(1)提出一种基于Bagging与CNN的混合模型。该模型用深度CNN代替传统的简单分类器如SVM,并行地训练多个深度CNN并用相对多数投票法统计它们的预测结果,有效提高了预测准确率。进一步地,提出新的分类器系数计算方法和特征选择方法以提高模型的整体预测能力。实验结果表明,使用深度CNN作为同质弱分类器的Bagging模型将二级结构预测准确率从单一CNN的66%提高至73%。(2)提出一种基于Boosting与CNN的混合模型,其中使用Adaboost作为Boosting的实例。该模型以多个CNN作为同质弱分类器,并使用SAMME方法优化Adaboost模型。进一步地,提出结合Bagging方法集成多个Adaboost强分类器的混合模型。实验表明,该算法在训练中可达到97.00%的准确率;预测准确率最高可以达到77%。在公共数据集CB513上可达到74.29%的准确率,超过了当前研究最高的70.3%。(3)提出一种基于Stacking与CNN的混合模型。该算法以K折交叉验证法划分数据集,训练过程融合了Bagging和Boosting的特点,还可以叠加多层的异质弱分类器以提高模型的特征提取能力。进一步地,提出依据蛋白质序列长度划分原始数据集的划分方法结合原来的混合模型。实验表明,该算法可以进一步提高异质弱分类器的预测准确率,使用序列长度划分方法结合Adaboost模型,在公共数据集Cull PDB上可达到76.71%的准确率,超过了当前研究最高的74.0%。
其他文献
本院1996年1月~1999年12月行胃大部切除术486例,术后并发残胃功能性排空障碍4例,报道如下.
唇腭裂是最常见的先天性畸形之一,在我国发病率高达1.82%,严重影响患者的生活质量.随着现代医学的飞速发展,人们逐渐认识唇腭裂治疗的复杂性,和随之带来的包括患者和家庭的心
大跨径钢箱梁桥铺装层的材料选择及结构优化对钢桥的使用性能和耐久性具有重要影响。桥梁铺装层因受重载交通、气候温度等影响,应力分析和变形较为复杂,后期常会产生疲劳裂缝、车辙、分层、拥包和推移等病害。目前对桥面铺装结构的研究多是基于静荷载作用,与受到汽车荷载作用的实际情况不符,且铺装层疲劳研究通常是依靠费时费力的实验手段。因此提出新的分析研究钢桥面铺装结构疲劳损伤的途径和方法来改善大跨径钢箱梁桥的使用性
行政事业单位固定资产是各政府部门履行公共管理职能、推进社会主义事业发展的重要物质基础。随着经济社会的发展,行政事业单位固定资产的规模在不断扩大,在国有资产总额中占据较高比重。随之,固定资产配置不公、闲置浪费、处置不严等一系列问题逐步凸显出来。建立健全行政事业单位固定资产管理内控制度,执行严格的内部控制,不仅可以提高财政资金的利用率,还可以维护政府的公信力和良好形象。因此,在国有资产改革大背景下,探
学位
随着“新医改”的不断推进和深入,公立医院也随之实施一系列的改革措施,持续提升公立医院的市场竞争力已经成为了当前各个公立医院共同面临的难题。固定资产作为公立医院所拥有的,能够为公立医院带来经济效益和社会效益的资产,是公立医院提供医疗服务和社会援助的重要保障,也是评价一家公立医院医疗规模和医疗水平的重要指标。强化对固定资产的精细化管理,提高固定资产的使用效率,有助于公立医院经济效益和社会效益的增长,也
温州市天然气业务主要由国有燃气企业负责经营。近年来,随着国家关于国有企业经济体制改革的深化,包含民企、中外合资企业、央企在内的各类战略投资者均表达出期望与温州国有燃
<正>2016年,我怀揣梦想、踌躇满志,走出了象牙塔的大门,顺利考入贵州省遵义市凤冈县人民法院。当我沿着青色的石阶一步一步拾级而上,进入庄严而神圣的审判大楼时,澎湃的心情,
在"互联网+"的时代背景下,传统货运服务的智能化、平台化和集约化特征日趋明显,货运组织沿着联盟、网络、平台的方向发展演变。本文阐述了构建货运平台的基本途径,分析了货运平
近年来,随着汽车保有量的增加,交通事故发生率也呈现快速增长趋势,引起了社会的广泛关注。在实际驾驶状态中造成交通事故的原因有很多,据交通部门统计发现驾驶员错误的驾驶操
信用中介是商业银行的主要功能,信用风险是商业银行面临的主要风险。近年来,随着国内宏观经济增速放缓,商业银行为了维持规模扩张并保持盈利增长,经营范围不断延伸,资产类型日益丰富。ZS银行从2014年经营班子换届开始确立了“全资产经营”的基本战略。全资产经营战略的实施,使得ZS银行资产规模、盈利能力都大幅上升,较为有效地应对了外部形势变化带来的业绩压力。但是2017年开始实施金融去杠杆和之后中美贸易战使