论文部分内容阅读
蛋白质三级结构预测问题是当前蛋白质组学要解决的核心问题之一,这个问题的解决将有利于蛋白质功能的挖掘,进而深入理解生命现象的本质。关于蛋白质三级结构预测的众多研究方法中,机器学习方法作为人工智能研究领域的核心得到了广泛应用。基于机器学习的蛋白质三级结构预测的核心思想在于从给定的氨基酸序列中提取出有用信息,总结分析得出特定规律,从而实现对未知的氨基酸序列的有效预测。本文着眼于蛋白质序列的特征提取、构建合适的分类模型、采用集成策略三个角度,完成蛋白质三级结构的预测。本文的内容主要包括以下方面:本文提出了改进的伪氨基酸组成、分段距离频率特征提取方法,用于蛋白质三级结构的预测。改进的伪氨基酸组成就是用对氨基酸的物理化学性质进行主成分分析得到的三个主成分来代替伪氨基酸组成模型中三个成分。分段距离频率就是把待预测的蛋白质序列分成若干段,针对每一段蛋白质序列,再用距离频率方法提取特征。研究表明,单个的特征提取方法可能会丢失一些信息,本文将不同的特征进行了融合,目的在于提高最后的预测精度。本文利用柔性神经树作为基分类器,采用层次分类方法,提出新的集成策略来预测蛋白质的三级结构。柔性神经树是一种能够优化结构和参数的机器学习方法;层次分类是一种多分类方法;集成策略包括以下内容:用改进的伪氨基酸组成和理化组成的融合、分段距离频率和理化组成的融合、改进的伪氨基酸组成和分段距离频率的融合、改进的伪氨基酸组成、理化组成、分段距离频率、伪氨基酸组成七种特征构造了七种具有差异性的基分类器,并最终采用了选择性集成策略对这七个基分类器进行集成。通过实验结果以及和其他方法的对比,验证了本文所提出的方法的可行性和有效性。