生物信息学中的不平衡学习新方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:gfgfiiii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是一门涉及生命科学和计算科学的交叉学科,致力于通过计算和统计技术来解决生物数据分析和计算中所产生的实际问题。生物信息学专注于开发和应用计算技术来增加对生物过程的理解。在机器学习问题中,类别不平衡问题严重影响一些标准分类器的性能。机器学习领域的研究表明直接对不平衡问题应用传统的机器学习方法往往导致预测结果偏向多数类。在许多机器学习问题中,数据的不平衡现象普遍存在,而生物信息学问题也不例外。蛋白质-ATP(即三磷酸腺苷)绑定位点预测问题是一个典型的不平衡二分类问题,其中绑定残基的数量远远少于非绑定残基。在多种生物活动中,ATP通过蛋白质的绑定位点与蛋白质相互作用,因此准确鉴别绑定残基尤为重要。对于不平衡学习问题,我们可以通过平衡类的分布来提升基于机器学习预测器的预测性能。上采样是解决类不平衡问题的常用方法,其通过合成新的少数类样本来平衡类的分布。本文中我们提出一种基于高斯混合模型的上采样方法来相对平衡类的分布,从而尽可能消除数据不平衡带来的不利影响。该方法使用高斯混合模型来模拟少数类的分布,在此基础上使用得到的模型来生成新的少数类样本。对于生成的样本,我们采用Tomek-links数据清洗技术来对其进行筛选。在UCI类别不平衡数据集上的实验结果表明我们所提出的方法能够缓解类不平衡所带来的负面影响并帮助提升分类性能。为了进一步验证该方法的有效性,我们将其应用到蛋白质-ATP绑定位点预测问题中。与此同时,我们选择使用稀疏表示方法来更好地对生成的样本进行筛选,保留那些具有语义信息更为明确的样本。我们在蛋白质-ATP作用有关的几个国际标准数据集上进行了一系列实验,实验结果验证了本文所提出方法的有效性。
其他文献
塑料梭子的材料要有较高的抗冲击性能,优良的耐磨性,耐高温,具有足够的刚性。单纯用某一工程塑料难以满足这些要求,必须对高聚物进行共混改性,获得“高分子合金”。本文即就
NUMA(Non-Uniform Memory Access Architecture)系统在市场上的应用越来越广泛,许多厂商都成功推出了基于NUMA架构的服务器,重点讨论当前Linux内核中的NUMA技术,主要包括:存
山东省威海市总工会郎济民报道山东省威海市总工会“四个强化”推动工资集体协商提质增效。强化齐抓共管。威海市总工会发挥协调劳动关系三方作用,制定实施了“提升集体协商
随着城市的发展,交通压力也日益加大,现代轨道交通的发展对车辆电气牵引技术提高了更多的要求。本文详细探析了现代轨道交通车辆的牵引技术,对前期牵引技术的应用进行了讨论
<正>主持人语社会工作及其专业人才建设是当代中国的社会建设战略。社会工作作为舶来品,适应中国即本土化是其实现专业使命的重要途径。中国体系(进而东方体系)与西方体系并
近年来,江苏省黄海农村商业银行(以下简称农商行)工会组织以人为本,在加强工会组织建设的同时,围绕全行业务经营中心,通过加强“职工之家”建设促进了业务发展,摸索出了一条
<正>《劳务派遣暂行规定》(下称《暂行规定》)自2014年3月1日实施生效起,至今已运行一周年。新规的出台对劳务派遣工、用工单位及派遣公司形成了巨大冲击,引发了劳动力市场的
写字教学是低年级教学的重点,新课程标准在第一学段识字写字阶段目标中提出"喜欢学习汉字,有主动识字、写字的愿望。"所以,在低年级写字教学中应从学生的年龄特点出发,以培养
父母控制是家庭教养方式中的核心维度,对青少年发展具有重要而特殊的意义。性格优势在每个人身上都不同程度地存在着,发展性格优势是积极心理学重要的支柱,也是理解精神幸福