高维度小样本（医疗）数据的机器学习方法研究

论文部分内容阅读

随着人工智能在医疗行业的快速发展,临床诊疗跨入智能时代。随着医疗数据的不断产生,怎样获取对医学有贡献的信息成为智慧医疗的新方向。在此方向中,特征选择是最为重要的方法,它可以根据数据初始特征集的分布,构建相应的特征选择模型,利用选择后的特征子集,实现分类。特征选择方法和分类算法通常建立在样本均衡且数量足够的前提下。医学数据集中完整的样本获取难度大,样本量少,特征维度高,属于小样本数据集;而且医学数据集的特征间关系很难界定,数量不仅多,且彼此之间可能存在某种关系。由于高维度的特征空间对算法的应用影响大,可能还包含多种冗余信息,影响分类算法的判断。因此,面对样本不足且维度很高的医疗数据时,常规特征子集的筛选方法难以为分类算法提供有效训练,分类算法准确率不高。目前,特征选择和机器学习算法如何应用于高维度小样本医学数据集是研究的难点。针对上述问题,本论文开展非平衡学习研究,改进特征选择算法,选择出最优特征子集以辅助临床医疗,构建分类模型,提升对高维度小样本数据的分类识别有效性。主要工作如下:1.针对特征选择的权重设置问题,采用了基于Relief F和LASSO的秩和检验算法（Wilcoxon-Relief F-LASSO,WRL）。该算法通过特征选择算法,生成特征重要性评分并进行特征重要性的排序;解决了特征选择中权重设置问题。与传统的Relief F算法和LASSO算法相比,WRL重点提升了特征选择算法的有效性和分类识别性能。本文将该算法应用于结直肠癌医学数据集,建立临床医疗模型,并对结果进行了验证。实验结果显示,该算法的特征选择结果和分类准确率等指标,均优于Reilief F、LASSO、MRMR算法。2.针对特征选择之间的相关性,采用了基于WRL和最大信息系数的特征选择算法（WRL-MIC-CFS,WMCFS）。该算法通过考虑特征之间的相关性,遍历所有特征子集选出最优解,解决了传统特征选择算法中在提取优质特征子集的同时,容易陷入局部最优解的问题,提高了特征选择的有效性。本文将该算法应用于结直肠癌医学数据集,建立结直肠癌分类预测模型。实验结果显示,该算法的分类正确率、方差、抗过拟合、准确率和召回率等指标,均优于WRL、WCFS（WRL-CFS）、MRMR等特征选择方法。本文为临床诊断提供有效的解决方案,改善了现有的特征选择方法,使其更好的应用于高维度小样本数据,补充了机器学习相关算法在实际医疗辅助诊断的处理方案,探究了诱发癌症发生的可疑蛋白表达,为当前医疗决策与临床研究提供了科学方法。通过对高维度小样本的真实医学数据检测,验证本研究的可行性。

与本文相关的学术论文