不平衡混合类型数据的特征选择方法及其在医学诊断上的应用

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:h5531465
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择和消除方法目前广泛地被应用于生物医学领域的数据挖掘。然而,经典的特征选择方法通常侧重于平衡数据和数值型数据,所以这些方法在处理不平衡或混合类型数据时,可能会导致分类器的性能较差。此外,现有的研究甚少考虑数据集中同时包含不平衡和混合属性的情况。因此本文提出了一种新的特征选择方法,称为自适应损失向后特征消除(AL-BFE),以处理不平衡的混合型数据。主要工作与创新点包括以下几个方面:一、在AL-BFE中,采用对名义特征的分解技术来处理混合类型的数据。通过将每个名义特征的取值与类标签相关联,从而更准确地挖掘名义特征含有的信息。二、提出一种自适应损失函数。该损失函数基于支持向量机(SVM)的原理,将误分类样本作为损失,同时根据不同的数据集,自适应地增加少数类损失在总损失中的比重,使分类器在特征选择过程中更关注少数类的分类精度。三、在实验中,采用7个医学诊断数据集,从F1和precision这两个指标综合评价了AL-BFE的效果,并且分析了特征选择的结果。实验结果表明,与递归特征消除算法(RFE-SVM),Relief+SVM和特征消除Holdout算法(HO-BFE)这3种方法相比,AL-BFE在参数变化时具有更高的分类精度和稳定性。另一方面,对混合数据进行处理后,AL-BFE的特征选择结果更有意义。因此,AL-BFE能够有效地处理不平衡的混合型生物医学数据,并用于医学诊断的特征选择。
其他文献
潮流能的有效开发与利用在减少碳排放、促进能源可持续发展等方面具有非常重要的科学价值和现实意义。水平轴潮流能水轮机作为潮流能转换装置的关键设备,其能量利用率、压力脉动特性、噪声特性的研究受到了众多学者的特别关注。目前,通常都是在水轮机外部安装导管来实现,该方法也受到了国内外学者的广泛青睐。尽管如此,目前潮流能水轮机的发展仍存在一些关键技术问题亟待解决,例如:1、导管与转轮间的间隙对潮流能水轮机水动力
学位
我国西部地区大量运营公路隧道地处高烈度地震区,与此同时,运营隧道质量缺陷及病害问题较为突出,结构质量缺陷的存在会影响隧道抗震性能,使得含质量缺陷区域成为隧道抗震薄弱部位。带缺陷服役的隧道,将会成为未来公路隧道震害的高危区,严重危及国家交通生命线工程安全和人民生命财产安全。因此,开展缺陷影响下隧道结构地震损伤的研究,对揭示隧道地震响应的缺陷影响机理、实现全寿命周期抗震性能评价具有重要的理论意义。目前
学位
目标检测是计算机视觉领域的经典任务,是后续进行图像分析、图像理解的关键。随着卷积神经网络的不断发展,基于深度学习的目标检测模型在检测精度和检测速度上都有重大的突破。小目标检测是现阶段目标检测的重点和难点问题,一方面,因为小目标像素分辨率低、特征信息少,易造成漏检、错检问题;另一方面,为了满足实时检测的需要,基于深度学习的小目标检测模型不能过于复杂。基于此,本文从提高模型检测精度和模型压缩两个角度出
学位
自1972年以来,泰国政府为了照顾企业员工和雇主的利益实行了最低工资标准制度,通过一系列政策和法律,设定了最低工资标准及三方工资委员会,推行最低工资标准的有效实施。随着世界经济贸易的发展,泰国越来越多的外资投入为泰国各行各业的发展带来了新的活力,推动了泰国经济快速发展。经济发展带来了人们收入的增加,泰国最低工资标准受外商投资的影响发生若干次变化,外商投资因此的工资变化已经成为泰国经济领域、社会保障
学位
排序问题是一种被广泛应用于生产计划、计算机控制等众多领域的一类重要的组合最优化问题,经常在理论界得到研究讨论.其就是要充分利用某些资源,达到以最佳方式完成一组任务的目标.排序问题在现实生活中的许多领域都扮演着不可替代的角色,人们对于各种排序问题的研究越来越多,等级约束下的排序问题就是其中之一.等级约束下的平行机排序问题是组合优化领域中的经典难题之一,近十年来得到了广泛的研究,在近似算法设计中发挥了
学位
我国岩溶发育茂盛,众多房屋建筑以及基础设施包括市政道路、公路和铁路需在浅埋岩溶地下洞穴密布和发育的地区修建,而这些设施可能因为地下洞穴的影响发生地面变形、滑坡等灾害从而严重影响各类设施的安全与使用,所以在岩溶地方开展各类建设项目时,往往需要对有关场地进行稳定性评估。目前国内外的研究成果中,有关地下洞穴与岩土体稳定性关系的研究绝大部分专注于研究岩溶与地下洞穴的关系、地下洞穴本身的力学参数及其形成规律
学位
顶点覆盖约束下的平行机排序问题和拒绝费用受限的平行机排序问题都是著名的NP-难问题,假设P≠NP,那么这两个问题不存在多项式时间精确算法.在顶点覆盖约束下的平行机排序问题中,工件和图的顶点一一对应,工件的加工时间代表顶点的权重,图的边限制了工件之间的关系,目标是找到一部分工件使得这部分工件既是图中的一个顶点覆盖同时在机器上的最大完工时间达到最小.在拒绝费用受限的平行机排序问题中,每个工件都有一个加
学位
具有偏斜特征的异质数据广泛存在于生物医学、气候科学和经济金融等领域.经典的统计模型忽略了数据的异质性,不适用于分析来自异质总体的数据.有限混合回归(FMR)模型是处理这类数据的有效统计工具,它的软聚类机制同时实现了异质数据的聚类和建模,在回归和聚类分析等方面有着广泛的应用.传统统计推断方法的应用要求数据服从对称分布,然而现有的真实数据的分析结果表明,相比于对称分布,偏斜分布能捕捉到的信息更加准确和
学位
随着科学技术的高速发展,医学、金融、生物学等领域中产生了大量的类不平衡数据,如何从中提取出有效信息成为近年来的研究热点和难点。传统的分类算法旨在获得最大的分类精度,导致少数类样本常被误分为多数类,此时传统的分类算法不再适用于不平衡分类。针对这一问题,本文从数据层面和代价敏感层面展开不平衡数据的统计建模研究,主要成果如下:过采样作为处理不平衡数据分类的常见方法,通过合成少数类样本,以降低原始数据集不
学位
数字图像的获取、传输、保存的过程中由于外界的随机因素,不可避免地会受到种种干扰,这些干扰使得图像像素的灰度值改变,从而在图像中出现突兀像素点以及模糊现象,为了还原干净清晰的图像,从频率域和空间域上设计了许多针对含噪图像的降低噪声的技术,简称为图像降噪。纵观图像降噪的发展历程,从均值滤波到全变分模型以及卷积神经网络去噪技术,各种技术或多或少都带有平滑图像的思想,即将梯度过大的像素值分到周围像素点上,
学位