论文部分内容阅读
乳腺癌是全球女性的健康威胁,早期筛查是预防乳腺癌的关键,可显著降低乳腺癌的死亡率。乳房X线摄影是乳腺癌早期筛查最可靠的方法之一。据统计,放射科医师在乳腺癌筛查中的敏感度只有75%左右,但如果他们被提示可能的异常位置,他们的表现会有所改善。计算机辅助诊断系统可以作为医生的“第二助手”为医生提供参考意见,对医生的准确诊断起到非常大的作用。随着大数据时代的到来,利用机器辅助医生诊断疾病已经成为一个流行趋势。今天,机器学习技术被广泛应用于乳腺癌分类问题,相比于深度学习在小样本上容易出现过拟合以及泛化能力差的问题,机器学习在小样本学习上具有更大的优势。因此本文采用基于特征选择的机器学习的方法进行乳腺癌分类研究。本文以乳腺癌数据作为训练样本,设计并完成了对乳腺癌良恶性分类的实验。具体说来,本文的主要工作包含以下几个方面:1.考虑到现实生活中的医学数据多是高维非线性的,难以用一般的线性降维方法进行映射,本文提出了采用基于分类效果最佳原理的增强型局部线性嵌入方法将高维数据映射到低维空间,并且不改变其原本的局部邻接关系。2.针对随机森林中每一棵决策树拥有同等决策能力这一缺陷,提出使用基于特征置信度加权的随机森林算法,并采用贝叶斯优化方法进行模型的超参数寻优。将该算法应用于UCI标准机器学习数据库中的三个基准数据集中,获得了良好的分类效果,并与其他同类经典算法相比较,证明算法的可行性。3.将改进的局部线性嵌入算法和改进的随机森林算法应用于乳腺癌数据集中。在DDSM数据集中,首先对267张乳腺钼靶X线影像进行预处理,预处理过程包括:图像增强、图像去噪、病灶区域分割以及特征提取阶段。采用基于灰度共生矩阵进行病灶区域的纹理特征提取,利用增强型局部线性嵌入算法将提取的16个纹理特征量进行特征降维,消除冗余信息。随后将重构得到的特征集送入改进的随机森林分类器中。分类准确度、分类精度、召回率、F1-score和AUC值分别为94.01%,93.68%,94.12%,93.81%和0.99。4.进一步对增强型局部线性嵌入和贝叶斯优化的随机森林模型的有效性进行验证并与其他同类算法进行比较。将增强型LLE-BOARF模型用于对UCI机器学习数据库中的WDBC和WBC两个数据集进行分类验证。分类模型在WDBC数据集上获得了97.08%的平均分类准确率,AUC值为0.987;在WBC数据集上同样获得了96.68%的平均分类准确率,AUC值为0.987。与同类方法相比,结果证明了本文所提模型的可行性。本文提出的模型所取得的良好结果表明,将非线性特征选择方法与集成学习方法相结合用于计算机辅助诊断是可行的,为计算机辅助癌症诊断提供了研究方向,具有一定的现实意义和应用价值。