【摘 要】
:
对于非均衡医学数据的分类问题,由于各类别所含样本的数目相差悬殊,导致少数类样本被误分类的比例远大于多数类,因而传统的分类算法所建立的模型一般无法满足分类性能的要求
论文部分内容阅读
对于非均衡医学数据的分类问题,由于各类别所含样本的数目相差悬殊,导致少数类样本被误分类的比例远大于多数类,因而传统的分类算法所建立的模型一般无法满足分类性能的要求。从数据维度和特征属性的角度,高维连续非均衡数据包含大量无关和冗余特征,易导致维度灾难及过拟合,降低学习算法性能;某些低维离散非均衡数据则存在特征与类别相关性不强及特征稀疏程度较大等问题。本论文采用特征选择方法解决非均衡医学数据的分类问题,在保证模型预测性能的前提下,找出与非均衡数据分类最相关且冗余度最小的特征子集,本文的主要研究内容如下:1.对于高维连续非均衡的基因表达数据,提出了 一种基于改进ReliefF和支持向量机递归特征消除算法(SVM-RFE)的非均衡特征选择方法。首先使用改进ReliefF算法剔除无关特征,筛选有利于预测少数类的特征;再使用SVM-RFE进一步搜索最优特征子集,并建立分类预测模型;最后,利用KentRidge生物医学数据集,与 All-SVM、ReliefF-SVM、ReliefF_M-SVM 及 SVM-RFE 模型进行对比,实验结果验证了所提方法的有效性。2.对于高维连续非均衡的基因表达数据,提出了一种基于多目标优化的非均衡特征选择方法。首先,以SVM作为分类模型,使用改进ReliefF做特征初选;再将特征选择描述成一个多目标优化(MOP)问题,利用带精英策略的快速非支配排序遗传算法(NSGA-Ⅱ),同时优化模型预测性能和特征子集规模,得到一系列Pareto最优特征子集;最后,利用KentRidge数据集,与ReliefF_M-All-SVM和ReliefF_M+SVM-RFE模型进行对比,结果表明了所提方法的有效性和可靠性。3.对于颈动脉内膜剥脱术(CEA)术后脑过度灌注综合征(CHS)数据集,由于数据严重非均衡及特征稀疏程度较大,以上方法难以将少数类识别出来。针对此类问题,本文提出利用卡方统计进行特征选择,之后在算法层面采用异常检测和代价敏感方法,在数据层面采用重采样技术和集成技术,进而分别建立非均衡分类模型的技术路线,实验结果表明所提方法在处理此类数据时具有良好的分类性能。
其他文献
从安徽铜陵酸性矿山环境中采集酸矿水和底泥样品,采用FeT、FeS、Waksman、Starky四种选择性培养基,从酸矿水中分离纯化出一株硫氧化菌W-3-1。对W-3-1进行系统生物学鉴定,结果
甲基乙二醛(Methylglyoxal,MG)是一种细胞毒素代谢副产物,广泛产生于糖、氨基酸、丙酮等代谢过程。它可通过蛋白质的糖基化修饰和不可逆交联影响蛋白、核酸、脂质分子的结构和
目的:比较腹腔镜开窗术(laparoscopic fenestration,LF)与开腹开窗术(open fenestration,OF)在肝囊肿手术中的疗效,为临床肝囊肿的治疗提供更多可靠依据。方法:通过计算机系
20世纪90年代至今,中外合作办学历经多年快速发展,已经成为我国教育交流合作的重要形式。合作的意义在于牵手世界知名高校,引进国外优质教学资源,让学生能够体验原汁原味的国
在使用无线射频识别(Radio Frequency Identification,RFID)技术的系统中,多个标签同时向阅读器发送其自身信息时会造成它们之间的碰撞问题,增加标签识别时间、降低标签识别
在经济全球化背景下,我国资本市场在不断开放和发展,社会公众对上市公司内部控制缺陷信息披露的关注度也在逐步加强。上市公司内部控制缺陷信息的披露质量状况不仅反映了自身
随着信息技术的快速发展,视频直播、语音聊天等与“声音”有关的社交方式越来越受欢迎,而语音通信质量也愈发受到人们的关注和重视。在进行语音通信的过程中,语音总是会受到各种背景噪声的干扰,导致语音通信的质量下降进而使得很多语音处理系统的性能受到严重影响。为了有效改善系统的性能,提高语音通信质量,语音增强技术开始被广泛研究。残差神经网络作为一种新兴的深度神经网络,在原有的神经网络的基础上通过使用“跳跃连接
人工嗅觉系统,即电子鼻,是由具有特异性的气相传感器阵列结合信号处理单元和机器学习算法而组成的系统,具有识别单一或复杂成分气味的能力。与传统的气体分析技术相比,电子鼻
JBY是一家研产销于一体健康科技企业,拟打造与其核心竞争力相适应的新商业模式,为医疗行业中小型企业商业模式创新提供思路。本文利用PEST模型分析了大健康行业的宏观环境,并
股权激励,是一种以公司股票为标的,通过公司的董事、监事、高级管理人员以及骨干员工等获得公司股权的形式使他们获得一定的经济权利,从而使他们能够参与企业决策,并在分享企