论文部分内容阅读
对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。因此,分类学已成为人们认识世界的一门基础科学。在生物,经济,社会,人口等领域的研究中,存在着大量的分类研究。目前常见的分类方法有决策树分类、贝叶斯分类、神经网络分类、k-最近邻分类、支持向量机分类、以及基于粗糙集和云模型的分类方法。本文首先介绍了数据分类的相关概念,然后对其中最常用的几种分类方法进行了深入地研究,经研究发现这些方法对于解决样本分类问题时,在保证既有较高的准确率又有较快的速度方面,都显得不够理想。
因此本文提出了一种新的基于闭包的解决样本分类问题的方法,并在此分类方法的基础上给出了Rd空间中的样本分类判别准则和分类模型。最后分别以蘩缕花品种的分类判别和乳腺癌的分类诊断为例,都收到了不错的实验效果。本文主要研究内容如下:
(1)引入了一种新的降维方法。先对所有的样本指标进行排列组合,以任意2个或3个指标组合进行闭包构造然后选出最好的指标组合、建模实验及分类判别。最后比较二维和三维的实验效果。这样可以在高维空间中,选择出对数据分类最有效的若干个指标组合,从而达到降维的效果:
(2)提出了一种对样本数据分类判别的新方法。该方法是基于闭包的原理进行分类判别,不同于传统的分类方法。传统方法是从面出发找出若干近似曲线来把样本点分为若干类,而基于闭包的分类方法是以类为出发点,以闭包为规则的构造分类的方法,即用几个圆或球把样本点分为若干类,并且每一类都是找最小的圆或球把样本点包含进去。比较可以看出本文的方法操作方便,数学原理比较简单。
(3)给出了交叉区域和位于闭包外的待检验点的判别准则。基于闭包的分类方法给出了对于闭包间的交叉区域和位于闭包外的待检验点的分类判别准则,这样就能更精确的对每类样本点的类别进行判断。
本文的研究成果,用闭包的分类方法来处理高维样本中的分类问题,用已知的样本数据的信息来检测未知样本的类别,并且选用了降维和特征选择的思想,提高了算法的效率,最后引入了待检测区域点的概念,进一步减少了误判率。实验证明用此方法取得了不错的分类效果且有较高的识别率,具有较高的应用价值。