论文部分内容阅读
乳腺癌是严重危害女性身心健康的常见恶性肿瘤,是世界各国女性死亡的主要原因之一。由于乳腺癌的病发机理还未完全弄清楚,因此早发现、早诊断及早治疗对防治乳腺癌十分重要。目前在乳腺癌的临床诊断方法中,影像诊断是最适合适龄女性乳腺癌诊断方法,乳腺X光摄影技术是最常见的乳腺癌早期诊断方法。本文主要从数据挖掘的角度,研究多分类器、支持向量数据描述、核主成分分析及MapReduce并行计算框架等理论,以及在医学图像领域的关键技术和主要算法。提出超球体多分类支持向量数据描述分类算法及基于MapReduce编程模式下的超球体多分类支持向量数据描述算法,并将它们分别应用于乳腺X光医学图像分类中。本文所做的主要工作如下:1.提出超球体多分类支持向量数据描述分类算法一些相关性高的冗余特征信息不仅会增大分类算法在构建分类模型时的计算量,而且还会影响分类器的分类效果。而且传统的多分类器基本上都是由二分类器组合而成的,当分类类别数达到一定的数量时,这种经二分类器组合而成的多分类器将会遇到诸如样本训练阶段速度较慢的问题。针对上述问题,本文提出超球体多分类支持向量数据描述算法(Hypersphere Multi-Class Support VectorData Description, HSMC-SVDD)。该算法的优点是在分类模型建立前期运用核主成分分析(Kernel Principal ComponentAnalysis, KPCA)来有效地对数据进行降维,然后在构建分类模型时使每一类样本只参与构造一个超球体的训练,以此来直接构造多个SVDD超球体的多分类器,从而有效地降低系统的开销。2.将超球体多分类支持向量数据描述分类器应用于医学图像挖掘中本文将HSMC-SVDD算法应用于医学图像挖掘中。在乳腺X光图像的标准数据集(MIAS)上的实验结果表明:无论是训练速度还是分类精度都获得了较好的效果。3.设计了基于MapReduce编程模式下的超球体多分类支持向量数据描述算法,并应用于医学图像分布式挖掘中当训练数据集增加到一定数量级时,支持向量数据描述训练模型的构建将会是一个计算密集型的过程。随着今后在线诊断数据和临床医疗数据的不断增加,HSMC-SVDD分类器在多分类中的效率将随之降低。通过对并行数据挖掘进行研究,设计一种并行数据挖掘算法,本文在MapReduce编程模型的基础上对超球体多分类支持向量数据描述算法HSMC-SVDD进一步设计,构建基于MapReduce编程模式下的超球体多分类支持向量数据描述算法(MRHSMC-SVDD),并应用于乳腺X光医学图像分类中。在乳腺X光图像的标准数据集(MIAS)上的实验结果表明:当小于临界值时,随着节点数的增加,MRHSMC-SVDD分类器训练模型的加速比正接近于线性加速比曲线;当超过该临界值时,随着节点数的增加,加速比将达到一个持平的趋势。如果对大数据集进行分类,加速优势将会更加明显。