论文部分内容阅读
支持向量机(Support Vector Machine,以下称SVM)是在统计学习理论的基础上发展起来的新一代学习算法,有着通用的前馈网络结构。它在文本分类、手写识别、图像分类、生物信息学等领域都获得了较好的应用。尤其是近年来,在对实际数据的分类研究中,SVM作为一种新型的有效方法受到了广泛的关注。同时也吸引了国内外学者对它在分类问题中的原理和应用进行了深入研究。本文中,我们也同样着眼于利用SVM的良好特性解决现实世界中的数据分类问题。在实际的分类问题中,数据集在数据空间通常并不是理想化的,因此在分类器的设计中,主要存在两类潜在的影响。第一,在实际分类数据的不同类别间,往往存在着相互作用和各种不同的噪声。受其影响,分类数据中往往会出现偏差和混叠的现象,尤其在理论分界面的周围,这种现象更加明显。换句话说,由于分类问题中不同类别的相互影响以及噪声的存在,本来应该清晰的分界超平面在实际数据中往往表现为一个不易划分的灰色地带。正是由于这一灰色地带的存在,数据的正确分类变得更加困难,同时如何设计分类器以获得最佳分类效果也成为我们重要的研究课题。第二,在实际应用中,数据的不均衡问题也普遍存在。此处,不均衡指的是在分类问题中,一类数据的数据点个数远远大于另一类数据点的现象。产生这一现象的原因是由于在现实生活中,一类事件发生的频率往往远远大于与它相反的事件所发生的频率。在传统的SVM模型中,这种不均衡的情况会导致分界线的偏移。为了减少实际数据中类别间相互作用以及噪声的影响,同时克服数据不均衡所导致的分界面偏移,我们提出了一个改进的模型即自调节模糊判决支持向量机。与传统支持向量机分类模型不同的是,在新的模型中我们引入了模糊理论来构建分界面。在分类过程中的预测层,我们采用模糊判决函数替代了传统的符号函数。另外在分类预测的过程中,通过计算支持向量的判决值,采用加权调和均值的方法计算得到一个准确的偏移量参数。通过对这一偏移量参数的引入,分界面得以修正至最优的位置。由于我们所提出的分类模型能够很好的自调节地描述现实数据的特性,因此一些在传统方法中被错分的测试样点能够重新得到正确的分类。在仿真实验中,分别将所提出的自调节模糊判决支持向量机分类器应用于心脏病检测和内燃机检测,均取得了良好的分类特性和鲁棒性。