论文部分内容阅读
自人类步入后基因组时代,蛋白质组学作为基因组学的下一个重要阶段受到越来越多学者的关注。其中,蛋白质识别和结构预测是蛋白质组学研究的基础环节。目前,生物信息学家开展膜蛋白质识别主要以机器学习分类方法为主,而特征提取和分类算法是其中关键步骤,本文围绕这两点进行了深入地研究。 本文主要研究内容包括: (1)引入了三种膜蛋白的特征及其提取方法。本文先后引入了指代蛋白质同源信息的20维特征;指代氨基酸组成成分-物理化学性质的188维特征;指代蛋白质同源信息结合氨基酸在序列中顺序信息的1000维特征。实验结果表明,20维特征具有最高的分类准确率,188维特征具有最快的提取速度,然而1000维特征却没有获得比20维更佳的理论结果。 (2)提出了基于最小错分样本交集的选择性集成学习法。本文提出利用最小错分样本交集大小来衡量基分类器间的差异度,从而帮助筛选基分类器。实验结果表明,本文集成分类器在膜蛋白预测上二分类和八分类的准确率分别为91.2%和86.1%,和现有最好效果相当,却拥有更高的运行效率。 (3)构建了新的膜蛋白数据集,弥补了已有膜蛋白数据集的不足。发现了参与选择性剪切的多肽中大约1/3是膜蛋白。发现了接近12%的酶具有膜蛋白的特性。开发了基于本文最小错分样本交集的膜蛋白预测平台BinMemPredict和选择性集成分类开源工具包LibSimpleVote。