面向不平衡和高维医疗数据的分类方法研究与应用

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:sjtulzhff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从海量的医疗信息中发现有价值的信息已成为机器学习等领域的热点研究内容,医疗数据分类是其中一项重要技术。现实医疗数据存在不同类别样本数量不平衡的问题,训练的分类模型易偏向多数类(正常人)而忽视蕴含更多价值信息的少数类(疾病患者)。另外医疗数据中的特征维度高且复杂,其中存在大量的无关和冗余特征,将全部特征用于训练分类模型不但会增加计算成本而且会降低分类性能。本文围绕上述两个问题开展研究,主要内容如下:(1)针对医疗数据存在的类别不平衡问题,基于聚类思想和合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)提出一种改进SMOTE方法来平衡医疗数据提高分类模型对疾病患者的识别率。首先利用近邻规则识别并过滤疾病患者样本中的噪声,然后对疾病患者样本进行聚类分析,依据欧式距离计算每个子簇的样本密度,对样本密度低的子簇赋予更高的过采样权重,最后在每个子簇中心和子簇内疾病患者样本之间根据采样权重合成新样本。实验选取6组不同平衡率的医疗数据集,在不同分类模型上验证了该方法的可靠性,并与4种流行的过采样方法进行对比,结果表明了本文方法的有效性。(2)针对医疗数据存在的高维复杂特征问题,提出一种基于多元宇宙优化算法的封装式特征选择方法对医疗数据中的特征选取状态进行二进制编码,并在适应度函数中结合维度缩减和综合分类评估指标来筛选出与疾病患者类别最相关且冗余小的特征子集,以提高分类模型的学习效率和分类性能。实验选取7组不同维度的医疗数据集,在不同分类模型中验证了该方法的有效性,并与4种经典的特征选择方法进行对比。实验结果表明本文方法在降低特征数目和综合分类性能上有明显优势,对于解决高维医疗数据的特征选择问题具有实用性。(3)将提出的过采样方法和特征选择方法应用到新型冠状病毒肺炎阳性患者的诊断中,从中分析出样本的单核细胞、白细胞、血小板和嗜酸粒细胞等重要特征信息会影响阳性患者的诊断结果,训练得到的分类模型对选取的不平衡且高维新型冠状病毒肺炎数据集中的阳性患者识别率达到82.35%。该应用验证本文所提方法有助于改善现有临床诊断技术,为医疗研究提供科学依据。
其他文献
当前能源危机与环境污染问题日益严峻,电动汽车得到了飞速的发展。锂离子动力电池具有能量密度高、工作温度范围广、循环使用周期长、对环境零污染等诸多优势,逐渐成为电动汽车的主要储能设备。然而,锂离子电池经常在复杂恶劣的工况下工作,其性能受温度、循环次数、过载运行等因素的影响不断变差。实时监测与控制锂离子电池的工作状态,延长电池的使用寿命,保障电池的安全运行,对电动汽车的发展有着重要的意义。精确的电池荷电
学位
随着我国环保理念不断深化与“碳中和、碳达峰”的不断推进,新能源得到了大力发展。但随着新能源电源大量并网以及微网系统、电动汽车充电桩等逐渐普及,电力系统运行的安全性与可靠性也面临着巨大的挑战,对现代电网控制技术提出了更高的要求。现有柔性交流输电技术在工程应用方面存在一定的限制,本文结合现代电网架构与实际需求,提出一种基于电阻—电抗解耦的新型分布式潮流控制器(Novel Distributed Pow
学位
随着大量分布式新能源、储存装置、电动汽车等接入配电网,我国配电网正在发生深刻的变化,电能质量方面出现了许多问题,现代配电网的可靠稳定运行面临着较大的挑战。而分布式静止串联补偿器(DSSC)作为分布式柔性交流输电设备(D-FACTS)的一员具有分布式、小型化、模块化等的优点,可适应配电网复杂应用场景,可有效提升现代配电网输电能力、促进新能源消纳、补偿三相不对称等,使配电网的灵活性、可靠性与稳定性得到
学位
随着全球气候变暖、土地沙漠化程度加剧,全球环境正在逐渐恶化,世界各国纷纷将汽车首要发展方向转向电动汽车。动力锂离子电池因具有能量密度大,工作寿命长以及绿色环保等优点成为现在电动汽车电池组的优先选择。由于锂电池的化学特性受环境、温度等因素的影响,其电压、电流、功率等数据都是非线性的,给电池管理系统(BMS)带来了重大挑战,使其难以对其进行准确的故障诊断。BMS需对电池各项实时状态进行检测,以保证电池
学位
人类可以根据交互过程实时需要,改变自身关节“软硬程度”,实现稳定的交互控制,关节这种特性被称为动态阻抗。本文以上肢末端的腕关节为研究对象,精确测量腕关节的动态阻抗,有助于揭示人体手腕操作机制,对关节疾病诊断治疗和智能穿戴设备设计,都具有重要意义。相比静态或准静态时关节阻抗测量,动态阻抗测量更加困难。通常用二阶模型表征关节角度与交互力矩之间的动态关系,并采用随机激励去激发关节动态特性,然后通过参数辨
学位
城市道路场景视觉感知算法对于无人驾驶避障至关紧要,然而由于城市道路场景复杂、困难样本极多,现有算法普遍存在分割定位精度低、运行速度慢的问题。为设计出兼具高实时性和精度的视觉感知算法,本文进行了如下研究:首先,搭建了兼具的高实时性和高精度城市道路场景实时视觉感知神经网络架构。优选了Efficient Net-d3作为特征提取模块;引入注意力机制,改进了特征加权融合PA-FPN,并选为特征融合模块;最
学位
随着环境恶化、能源安全和地缘政治问题的日益突出,人们越来越重视可持续发展。根据国际能源署的统计,建筑的能耗已经占到社会总能耗的32%。随着全球城镇化的进一步推进,建筑能耗的占比会越来越高。而现代建筑中暖通风空调(Heating Ventilation and Air Conditioning,HVAC)系统的能耗占比非常高,因此本文研究建筑HVAC系统能耗的预测方法和降低HVAC系统能耗的途径。本
学位
随着我国老龄化人口和残疾人数的增多,使得外骨骼机器人具有良好的应用前景。传统的外骨骼机器人的控制方法是通过人体的肌电信号和装在外骨骼机器人上的传感器来实现的,但是对于几乎没有残余的运动能力和肢体残疾的患者来说并不能有效采集到对应肢体的肌电信号,而脑电信号却不受这些因素的限制,由此引申出来对脑电信号模式识别的研究。本文采用了运动想象脑电信号作为研究的数据,实现了对两类的运动想象脑电信号的分类识别,有
学位
进入21世纪以来,以通信、计算机为代表的人工智能的迅猛发展使现代社会加速迈入了智能化时代。如今,通信社交、智能电网等不同领域呈现出网络化趋势,各种各样的网络化复杂系统出现在人们的工作和生活中。研究网络中复杂动力学行为有助于人们清晰地认识动力学的行为特性,有助于科学规划和设计复杂系统。因此,本文基于网络中常见的中观结构,研究了不同动力学的行为特性,揭示了中观结构的变化如何影响动力学的行为。本文的主要
学位
我国制造业正在从劳动密集型向技术密集型转化,推出低成本、高稳定性的智能焊接机器人系统,一方面可使部分焊工从恶劣的环境中解放出来,另一方面也能提高焊接效率和工件品质的一致性,对我国焊接机器人技术发展和积累皆有重要意义。虽然示教型焊接机器人系统得到广泛使用,但在焊接过程中,当工件发生形变时,它只能按照预先设定的焊接路径与参数进行焊接而无法实时纠偏。离线编程型焊接机器人可通过提前规划的路径完成焊接,且焊
学位