论文部分内容阅读
生物信息学是一门涉及生命科学和计算科学的交叉学科,致力于通过计算和统计技术来解决生物数据分析和计算中所产生的实际问题。生物信息学专注于开发和应用计算技术来增加对生物过程的理解。在机器学习问题中,类别不平衡问题严重影响一些标准分类器的性能。机器学习领域的研究表明直接对不平衡问题应用传统的机器学习方法往往导致预测结果偏向多数类。在许多机器学习问题中,数据的不平衡现象普遍存在,而生物信息学问题也不例外。蛋白质-ATP(即三磷酸腺苷)绑定位点预测问题是一个典型的不平衡二分类问题,其中绑定残基的数量远远少于非绑定残基。在多种生物活动中,ATP通过蛋白质的绑定位点与蛋白质相互作用,因此准确鉴别绑定残基尤为重要。对于不平衡学习问题,我们可以通过平衡类的分布来提升基于机器学习预测器的预测性能。上采样是解决类不平衡问题的常用方法,其通过合成新的少数类样本来平衡类的分布。本文中我们提出一种基于高斯混合模型的上采样方法来相对平衡类的分布,从而尽可能消除数据不平衡带来的不利影响。该方法使用高斯混合模型来模拟少数类的分布,在此基础上使用得到的模型来生成新的少数类样本。对于生成的样本,我们采用Tomek-links数据清洗技术来对其进行筛选。在UCI类别不平衡数据集上的实验结果表明我们所提出的方法能够缓解类不平衡所带来的负面影响并帮助提升分类性能。为了进一步验证该方法的有效性,我们将其应用到蛋白质-ATP绑定位点预测问题中。与此同时,我们选择使用稀疏表示方法来更好地对生成的样本进行筛选,保留那些具有语义信息更为明确的样本。我们在蛋白质-ATP作用有关的几个国际标准数据集上进行了一系列实验,实验结果验证了本文所提出方法的有效性。