论文部分内容阅读
模式分类是模式识别的基本研究方向,有着广泛的研究和应用背景。经过几十年的快速发展,模式分类已经渗透到多个学科,在诸多领域取得了长足的进步。目前,虽然模式分类产出了丰硕的研究成果,并得到广泛的实际生产应用,但仍存在很多基本问题值得深入研究与探索。本论文主要探讨了分类算法设计、数据约简、增量学习、算法集成等方面的基本问题,提出了几种新算法,并围绕UCI (University of California Irvine)数据集和实际应用数据集进行了实验对比,相应实验结果验证了所提算法的有效性。本文的主要创新成果如下:1.为克服传统KNN(K-Nearest Neighbor)算法忽略样本分布影响、易受孤立样本及噪音干扰且运行代价大等缺陷,我们围绕新分类算法设计、相似度度量准则构建展开研究,提出了两种改进方法。其一针对于KNN算法忽略样本影响及运行代价高的问题,提出了一种改进的近邻分类算法。所提算法首先采用类维方式进行样本存储,打破了样本的整体性,转换了训练样本存储模式;其次利用未标识样本的类维近邻域,计算类维相似度进而得到未标识样本的类别相似度;最后使用类别相似度完成分类判决。所提算法不仅提高了分类效率和各类样本分布适应性,而且具有同时处理连续及标识型样本分类的优势,扩大了算法的应用范围。其二针对于传统距离或相似度度量未考虑个体样本对整体样本集影响,我们探究了个体样本及样本集分布状态的内在关联,提出了一种新亲和相似度度量准则,并构建了基于新亲和相似度的改进KNN算法。首先以样本对整体样本集的紧密度和分散度为关注点,提出了一种新的亲和距离函数;进而提出了亲和相似度函数,并将其作为KNN算法的相似度度量函数。理论分析及仿真实验表明所提方法是一种有效的相似度策略,且改进KNN算法与高效索引算法集成组合,可降低近邻算法在大规模数据集的分类时间。2.为克服CNN(Condensed Nearest Neighbor)算法选取原型易受样本读取序列、异常样本等干扰,提出了两种新的原型选择算法。其一针对于CNN算法只关注近邻样本忽略其样本分布的弊端,我们考虑了近邻局部均值和类全局信息与样本分布的关系,将其纳入到原型选择中,提出了基于局部均值与类全局信息的近邻原型选择算法。所提算法既在原型选取过程中,充分利用了待学习样本在原型集中κ个同异类近邻局部均值和类全局信息的知识,又设定原型集更新策略实现了对原型集的动态更新。其二为克服CNN算法学习规则的内在不足,借鉴最近特征线法思想,提出了一种自适应边界逼近的原型选择算法。所提算法改进了CNN算法的同类近邻吸收策略,保留了更优于当前最近边界原型的同类样本,逐渐逼近类边界区域;同时建立了原型更新准则,并运用该准则实现了原型集的周期性动态更新。仿真实验表明,所提两种算法均能获得较高质量的原型集,较好克服读取序列、异常样本对原型选取的影响。3.针对于不同区域样本的分类贡献不同,提出了一种基于二叉近邻树和约简操作的原型生成算法。所提算法通过构建任意样本的二叉近邻搜索树快速定位树节点分布位置,进而区分类边界、类中心及孤立等不同位置的样本;接着通过特定的约简操作进行了高效地原型选择或生成。仿真实验结果表明所提算法具有较好的鲁棒性,获取的原型集具有较高的代表价值,且可与其他算法集成应用,进一步减少冗余原型的数量。4.为实现大规模数据的增量快速分类目标,我们关注了以往原型生成算法所未关注的学习过程信息,提出了一种新的增量学习矢量量化算法。所提算法在单层学习矢量量化学习竞争学习基础上,融合了样本密度和分类误差率的邻域思想,扩充了原型为原型邻域信息,通过竞争学习策略实现代表点原型邻域的增删、合并、分裂等自适应操作,可快速获取原型集,完成大规模数据的高约简任务。此外,将已获取样本密度及分类误差率引入到近邻判决准则中,改进了传统的近邻分类算法,更符合实际应用情况。仿真实验结果表明所提算法具备了快速、增量特性,具有较好的通用性。