论文部分内容阅读
随着科学技术的快速发展,人们可以得到越来越多的信息。但是,要从这些大量数据中找到数据之间的模式变得越来越困难。为了找到大数据集合中的模式,人们引入了聚类分析技术。今天,聚类分析已广泛用于数据挖掘、模式识别、图像处理等领域。本文主要研究了聚类分析算法在大类别模式识别中的应用。本文首先详细分析了聚类算法的思想、步骤和理论基础。目前,已经提出了很多的聚类算法,它们基本上可以分为以下几种方法:基于层次的聚类、基于划分的聚类、基于密度的聚类以及基于模型的聚类,这些方法各有优缺点,也出现了很多基于这些方法的改进算法。本文在第三章选取了K-means、LVQ、核聚类三种经典的聚类算法进行了实验,其中,又对比了LVQ算法的改进算法MLVQ,最后选取K-means算法作为研究大类别汉字识别的工具。并结合了模式识别中的特征提取算法和LDA算法提高识别率,在特征提取算法中,我们着重分析了两种特征提取算法:Gabor特征和梯度特征,实验证明梯度特征的识别效率略优于我们常用的Gabor特征,并且经由LDA降维后的特征向量识别率也有很大的提高。由于本文是针对大类别的汉字识别,大类别样本聚类后一般产生的分类码本较大,分类时间长。这些特点阻碍了大类别汉字识别在实际应用中的推广。因此,在第四章,我们提出了运用Split VQ算法和两级聚类算法,分别从时间和空间上进行识别效率的提高,通过大量实验数据表明:这两种算法不仅能够完全保证识别正确率,还能大幅度的压缩码本存储量和降低识别时间。传统的K-means算法要求预先设置聚类数目,在聚类数目不正确的情况下,K-means算法会产生错误的聚类结果。RPCL算法可以自动确定聚类数目,但是这种算法对学习率和遗忘率敏感。本文第五章从评价获胜者和次获胜者间的竞争实力出发,提出了一种改进的RPCL算法。实验证明,新算法可以比RPCL算法更快和方便得找到正确的聚类数目,并且改进算法不需要预先设置遗忘率。