论文部分内容阅读
当前,乳腺癌是世界上相对频发的恶性肿瘤之一,它的发展极大的危害了广大女同胞的生命以及健康。常见的乳腺癌检测方法包括X放射、CT、热成像、超声显像等方法,但上述方法不仅需要极高的检查费用,而且也会给患者身体带来较大的损害以及痛苦。假如能有一种成本较低、效率较高而且对患者伤害小的诊断方法应用于早期诊断,便可以降低患者的痛苦以及减少其经济支出。所以,乳腺癌诊断模型的建立便具有很高的实用价值,通过使用已经建立好的乳腺癌检测模型对乳腺癌疑似患者进行检查,从而辅助医生进行临床决策以及提升乳腺癌的早期确诊率。本文基于实验室乳腺癌的三重评估基础上,提出使用机器学习的方法对乳腺癌进行诊断。机器学习的数据集来源于UCI机器学习库中的699组乳腺癌数据,该数据集为University of Wisconsin医学研究中心的相关人员提取的乳腺癌诊断指标,本文通过逐步回归以及PCA主成份分析方法分析该数据集中与乳腺癌相关的10个属性,从而得到与乳腺癌密切相关的特征属性,并保留其作为BP神经网络、决策树、集成学习等机器学习的输入变量。早期的乳腺癌诊断方法不仅给患者带来极大的痛苦,而且诊断费用较高。机器学习在处理比较复杂的问题时候却具有较高的准确率,并且对新样本具有良好的预测效果,从而可使机器训练出来的模型辅助临床医生进行诊断,同时提升乳腺癌的早期诊断率。本文将使用UCI数据集中的乳腺癌诊断数据作为本文的实验数据,其中将683组数据(16组为数据不全的,已去掉)按照实验要求6:4的比例分为训练数据集、测试数据集。然后,分别使用机器学习中的C4.5决策树、BP神经网络以及集成学习等学习模型分别建立相应的疾病诊断模型进行仿真模拟。最后使用测试数据对各个建立好的算法模型进行测试,实验表明各个模型的预测结果与原数据的关联性较强,说明建立的模型预测效果较好。其中基于BayesNet、Logistic、DecisionTable等算法集成的模型不仅比其中任意一个基分类器效果好,而且比常用的BP神经网络、C4.5决策树等算法具有更好的分类能力。所以最后分析比较得出本人提出的集成学习模型更加适用于乳腺癌诊断。