聚类分析及其在大类别汉字识别中的应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:gwxy110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的快速发展,人们可以得到越来越多的信息。但是,要从这些大量数据中找到数据之间的模式变得越来越困难。为了找到大数据集合中的模式,人们引入了聚类分析技术。今天,聚类分析已广泛用于数据挖掘、模式识别、图像处理等领域。本文主要研究了聚类分析算法在大类别模式识别中的应用。本文首先详细分析了聚类算法的思想、步骤和理论基础。目前,已经提出了很多的聚类算法,它们基本上可以分为以下几种方法:基于层次的聚类、基于划分的聚类、基于密度的聚类以及基于模型的聚类,这些方法各有优缺点,也出现了很多基于这些方法的改进算法。本文在第三章选取了K-means、LVQ、核聚类三种经典的聚类算法进行了实验,其中,又对比了LVQ算法的改进算法MLVQ,最后选取K-means算法作为研究大类别汉字识别的工具。并结合了模式识别中的特征提取算法和LDA算法提高识别率,在特征提取算法中,我们着重分析了两种特征提取算法:Gabor特征和梯度特征,实验证明梯度特征的识别效率略优于我们常用的Gabor特征,并且经由LDA降维后的特征向量识别率也有很大的提高。由于本文是针对大类别的汉字识别,大类别样本聚类后一般产生的分类码本较大,分类时间长。这些特点阻碍了大类别汉字识别在实际应用中的推广。因此,在第四章,我们提出了运用Split VQ算法和两级聚类算法,分别从时间和空间上进行识别效率的提高,通过大量实验数据表明:这两种算法不仅能够完全保证识别正确率,还能大幅度的压缩码本存储量和降低识别时间。传统的K-means算法要求预先设置聚类数目,在聚类数目不正确的情况下,K-means算法会产生错误的聚类结果。RPCL算法可以自动确定聚类数目,但是这种算法对学习率和遗忘率敏感。本文第五章从评价获胜者和次获胜者间的竞争实力出发,提出了一种改进的RPCL算法。实验证明,新算法可以比RPCL算法更快和方便得找到正确的聚类数目,并且改进算法不需要预先设置遗忘率。
其他文献
在无线通信系统中,MIMO中继作为一项关键技术,可以有效的增加系统容量和小区覆盖能力。MIMO中继根据转发协议不同可以分为放大转发,译码转发,编码协作,压缩转发等。其中,放大
为了了解温度和pH对嗜水气单胞菌的毒力基因表达以及致病性的影响,我们利用RT-PCR对4种毒力基因的表达进行了分析。研究结果显示嗜水气单胞菌毒力基因的表达受温度和pH值影响,
随着计算机网络的飞速发展,数字媒体产品给工作和生活带来方便快捷的同时,也带来了版权安全等一系列的问题。数字水印技术作为一种有效的数字信息版权保护方法,得到了广泛的
扩频技术是一种将信息数据经过扩频再进行信息传输的技术。它是利用与信息数据不相关的扩频码对信息数据的频谱进行扩展,因此扩频信号的带宽远远超过于信息数据的带宽,从而数
超宽带通信技术(UWB,Ultra-wide Band)具有高速率、低功耗、抗干扰能力强等特点,是目前近距离无线通信领域最有竞争力的技术之一,也是当今无线通信领域研究和开发的一个热点。同
学位
化学生物学课程的核心教学内容是介绍不同小分子化合物的特性及其在生物学中的作用.海量的小分子数据信息的检索是该专业本科生需要重点掌握的内容.我们在教学中引入了企业小