多分类机器学习及其在蛋白质结构类预测中的应用

被引量 : 0次 | 上传用户:tuyuantao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成以及生物测序技术的发展,大量的蛋白质序列信息数据不断涌现出来。然而人们对蛋白质高级结构和功能的认识还不够,远远落后于对蛋白质序列的认识。同时通过传统的生物实验方法已经无法满足海量数据的处理需求,因此非常有必要探讨借助计算机的快速计算能力,来进行蛋白质结构和功能的理论研究,这也是摆在生命信息科学工作者面前的极具挑战的任务。蛋白质作为生命活动的主要表现者和承担者,通过研究其结构和功能的相互作用来揭秘生命的内在奥秘,是新世纪生物信息学研究的核心内容。而蛋白质结构类是人类研究蛋白质结构和功能的关键,所以本论文的主要内容是围绕着蛋白质结构类预测这个问题。主要从以下三个方面进行展开,蛋白质序列特征信息的提取及组合、蛋白质序列多特征信息的特征挑选以及基于机器学习的蛋白质结构类预测。为了进一步提高蛋白质结构类的预测精度,本研究主要从以下三个方面进行了尝试,现将本研究的主要工作及其创新之处总结如下:1)蛋白质序列特征信息的提取及组合特征信息的提取的好坏直接影响蛋白质结构类预测精度,为了更加全面的描述一条给定的蛋白质序列,本文提出了一套能够全面反映蛋白质序列的特征信息。具体包括以k-字统计频率和k-片段位置分布两种特征提取方法分别提取了蛋白质一级序列、蛋白质物理化学性质序列以及蛋白质二级序列的频率和位置信息。并将这些不同性质的特征信息进行融合,有效的克服了特征信息单一的缺点,为提高蛋白质结构类的预测精度打下了坚实的基础。2)蛋白质序列多特征信息的特征挑选虽然融合越多的不同性质的特征信息能够更加全面的描述蛋白质序列,但是实际情况是并不是特征维数越多,分类的精度就会越高。相反,由于高维的特征信息中包含的噪声和冗余性也越多,增加了分类模型的计算量和复杂度,反而不利于提分类器的分类精度和其推广能力。所以,本文采用基于遗传算法的特征信息选择算法,并将其应用于蛋白质序列的特征信息挑选。遗传算法的主要思想是“优胜劣汰,适者生存”,那些适应度差的特征随着迭代次数的增加就会被逐步丢弃,而那些适应度好的特征则会被保留下来,继续繁衍后代,经过遗传算法选择后的特征信息集中既保留了原特征信息集中的绝大部分信息,又降低了特征信息集的维数,有利于分类模型性能的改善。3)基于机器学习的蛋白质结构类预测在蛋白质结构类的预测研究中,机器学习算法是一个非常重要的环节,直接关系到结构类预测的成败。在本研究中,首先主要介绍了常见的三种单分类算法,分别为人工神经网络、贝叶斯算法以及支持向量机。但传统的单分类器算法存在着一些不足,在所有的单分类器算法中,没有任何一种分类算法能够对任意给定的的样本特征都具备很好的区分能力。紧接着介绍了四种常见的多分类器融合算法,分别为多数投票法、贝叶斯规则、平均值法和加权平均值法。但是常见的多分类器融合算法的单个分类器之间的决策结果是相互独立的,并没有通过单分类器之间的充分协商,造成了一些决策信息的丢失。鉴于此,本研究提出了一种新的多分类器融合算法—Ma_Ada算法。实验结果也表明,Ma_Ada多分类器融合算法能够较大程度的提高蛋白质结构类的预测精度。综上所述,本研究从生物信息学的角度出发,较为系统地解决了蛋白质序列信息提取及多特征信息融合、蛋白质序列多特征信息的特征挑选和蛋白质结构类预测等信息处理问题。这些研究成果有助于促进蛋白质的结构及功能的更进一步研究,同时也对蛋白质序列分析、机器学习领域的发展有很大的帮助。
其他文献
甲醛污染依然是人造板工业亟待解决的重大问题。本论文通过分析原料配比对棉秆、黑松复合刨花板的甲醛释放量的影响,以及通过分析脲醛树脂胶粘剂中不同添加量的棉秆粉对胶合板
制造业是国家的支柱产业,制造业生产过程信息化是制造业现代化的必由之路,制造过程的生产调度优化是制造企业现代化管理的目标和关键。在制造业生产竞争日益激烈的今天,任何具备
本文采用噻唑蓝(MTT)比色法研究了纺织行业中常用助剂脂肪醇聚氧乙烯醚系列表面活性剂(AEO5、AEO9、AEO15)及N,N-二烷基脲系列化合物(N,N-二乙基脲、N,N-二丙基脲)对中华仓鼠
磷酸盐是肉品加工中常用的品质改良剂,且磷酸盐混合物的作用效果优于单一磷酸盐,但是添加的磷酸盐在肉品中会被水解而失去作用。本文从牛肉半腱肌中纯化焦磷酸酶和三聚磷酸酶
全球气候变化背景下多关注陆地暴雨,而对海洋暴雨及暴雨的海陆分异关注较少。基于1979—2016年ERA-Interim降水数据,采用多种统计方法,从海陆分异视角诊断全球暴雨多属性时序
随着纺织行业的发展,织物的设计越来越丰富,织机类型多样化。随之而来布边成型问题也显得比较突出。目前对于布边的研究主要在机械和产品设计两个方面,织物上机织造规格主要是依
2012年8月至10月,西安市文物保护考古研究院在西安市长安区西甘河村南,对韩国三星电子项目工程范围内发现的古墓葬进行了抢救性发掘,发掘35座古墓葬及1座陶窑。其中东周墓葬3座,
报纸
网络负荷强度是匡算城市轨道规模的重要参数,对科学、合理规划城轨网络、防范城轨建设风险具有重要意义。筛选全国已开通城轨超三年的21个城市,选择反映城轨运营、城轨供给、
红外器件用的玻璃杜瓦瓶是研制、生产红外器件不可缺少的重要组成部分。它对红外器件既提供了高真空环境,又提供了液氮致冷空间。玻璃杜瓦瓶型式中,杯式是目前常用的一种。
随着市场经济的繁荣,拥有较多的闲散资金的市民越来越多的寻求通过投资金融市场实现财富的保值增值。在这样巨大的市场需求刺激下,各大金融机构先后推出了各类理财产品,通过