论文部分内容阅读
统计学习理论(Statistical Learning Theory,简称SLT)是由AT & T Bell实验室的Vapnik及其合作者提出的可应用于小样本分析的统计理论。支持向量机(Support Vector Machine, SVM)是基于统计学习理论和结构风险最小化原理提出的一种有监督的机器学习方法,被公认为小样本情况下统计学习的经典。SVM具有较好的泛化和学习能力,已被广泛的应用于诸多领域。本论文利用模式识别的方法(K-近邻分类器、概率神经网络、决策树、支持向量机等)分别根据人体血液元素浓度、乳腺肿瘤细针活检数据、乳腺癌患者基因进行了癌症的辅助诊断和预后评估。分析和比较了不同特征选择方法对分类准确率的影响,同时比较了支持向量机和其它分类器的分类能力。本文研究的主要内容有:①对模式识别中目前常用的特征提取和选择方法进行了综述,介绍了信噪比、熵标准、遗传算法(GA)、主成分分析法(PCA)、独立成分分析法(ICA)、粒子群寻优算法(PSO)、模拟退火算法(SA)和其他常用的特征选择方法的算法、及其优点和缺点等。②介绍了几种常用的分类方法及其分类原理。包括贝叶斯分类器、K-近临分类器、决策树、概率神经网络和人工神经网络。对支持向量机的分类原理进行了详细的叙述,并介绍了其算法、实现、发展和在相关领域中的应用。③利用人体血液元素(Zn、Ba、Ca、Mg、Cu、Se)浓度,应用支持向量机等多种分类器及特征优化算法,进行了癌症的辅助诊断,并分析了不同特征提取和特征选择方法对分类准确率的影响。其中,K-近邻分类器(基于信噪比特征排序)、概率神经网络(基于信噪比特征排序)、决策树(基于熵标准特征排序)、支持向量机(基于遗传算法)的分类准确率分别达到了95.95%、97.29%、91.89%和98.64%。④根据乳腺肿瘤组织的细胞形态数据,应用支持向量机等多种分类器及信噪比特征优化算法,进行了乳腺癌的辅助诊断。其中,K-近邻分类器、概率神经网络、支持向量机的分类准确率分别达到了96.09%、95.08%、96.24%。⑤采用乳腺癌患者的基因数据,结合支持向量机等多种分类器及特征优化算法对其预后状态进行了评估,并分析了不同特征提取和特征选择方法对预后评估准确率的影响。其中,K-近邻分类器(基于信噪比特征排序)、概率神经网络(基于信噪比特征排序)、支持向量机(基于信噪比特征排序)的准确率分别达到了83.39%、86.10%、88.81%。从研究结果可以看出,支持向量机的分类准确率均优于K-近邻分类器、概率神经网络、决策树等分类器,表明该方法有望进一步发展成为一种实用的临床癌症辅助诊断及预后评估工具。