模式分类中若干基本问题的算法研究与应用

来源 :西安电子科技大学 | 被引量 : 1次 | 上传用户:serinol
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式分类是模式识别的基本研究方向,有着广泛的研究和应用背景。经过几十年的快速发展,模式分类已经渗透到多个学科,在诸多领域取得了长足的进步。目前,虽然模式分类产出了丰硕的研究成果,并得到广泛的实际生产应用,但仍存在很多基本问题值得深入研究与探索。本论文主要探讨了分类算法设计、数据约简、增量学习、算法集成等方面的基本问题,提出了几种新算法,并围绕UCI (University of California Irvine)数据集和实际应用数据集进行了实验对比,相应实验结果验证了所提算法的有效性。本文的主要创新成果如下:1.为克服传统KNN(K-Nearest Neighbor)算法忽略样本分布影响、易受孤立样本及噪音干扰且运行代价大等缺陷,我们围绕新分类算法设计、相似度度量准则构建展开研究,提出了两种改进方法。其一针对于KNN算法忽略样本影响及运行代价高的问题,提出了一种改进的近邻分类算法。所提算法首先采用类维方式进行样本存储,打破了样本的整体性,转换了训练样本存储模式;其次利用未标识样本的类维近邻域,计算类维相似度进而得到未标识样本的类别相似度;最后使用类别相似度完成分类判决。所提算法不仅提高了分类效率和各类样本分布适应性,而且具有同时处理连续及标识型样本分类的优势,扩大了算法的应用范围。其二针对于传统距离或相似度度量未考虑个体样本对整体样本集影响,我们探究了个体样本及样本集分布状态的内在关联,提出了一种新亲和相似度度量准则,并构建了基于新亲和相似度的改进KNN算法。首先以样本对整体样本集的紧密度和分散度为关注点,提出了一种新的亲和距离函数;进而提出了亲和相似度函数,并将其作为KNN算法的相似度度量函数。理论分析及仿真实验表明所提方法是一种有效的相似度策略,且改进KNN算法与高效索引算法集成组合,可降低近邻算法在大规模数据集的分类时间。2.为克服CNN(Condensed Nearest Neighbor)算法选取原型易受样本读取序列、异常样本等干扰,提出了两种新的原型选择算法。其一针对于CNN算法只关注近邻样本忽略其样本分布的弊端,我们考虑了近邻局部均值和类全局信息与样本分布的关系,将其纳入到原型选择中,提出了基于局部均值与类全局信息的近邻原型选择算法。所提算法既在原型选取过程中,充分利用了待学习样本在原型集中κ个同异类近邻局部均值和类全局信息的知识,又设定原型集更新策略实现了对原型集的动态更新。其二为克服CNN算法学习规则的内在不足,借鉴最近特征线法思想,提出了一种自适应边界逼近的原型选择算法。所提算法改进了CNN算法的同类近邻吸收策略,保留了更优于当前最近边界原型的同类样本,逐渐逼近类边界区域;同时建立了原型更新准则,并运用该准则实现了原型集的周期性动态更新。仿真实验表明,所提两种算法均能获得较高质量的原型集,较好克服读取序列、异常样本对原型选取的影响。3.针对于不同区域样本的分类贡献不同,提出了一种基于二叉近邻树和约简操作的原型生成算法。所提算法通过构建任意样本的二叉近邻搜索树快速定位树节点分布位置,进而区分类边界、类中心及孤立等不同位置的样本;接着通过特定的约简操作进行了高效地原型选择或生成。仿真实验结果表明所提算法具有较好的鲁棒性,获取的原型集具有较高的代表价值,且可与其他算法集成应用,进一步减少冗余原型的数量。4.为实现大规模数据的增量快速分类目标,我们关注了以往原型生成算法所未关注的学习过程信息,提出了一种新的增量学习矢量量化算法。所提算法在单层学习矢量量化学习竞争学习基础上,融合了样本密度和分类误差率的邻域思想,扩充了原型为原型邻域信息,通过竞争学习策略实现代表点原型邻域的增删、合并、分裂等自适应操作,可快速获取原型集,完成大规模数据的高约简任务。此外,将已获取样本密度及分类误差率引入到近邻判决准则中,改进了传统的近邻分类算法,更符合实际应用情况。仿真实验结果表明所提算法具备了快速、增量特性,具有较好的通用性。
其他文献
本文概述了重要柑桔病害——柑桔黑点病的病症、危害、发生生态、容易发生的条件和最近的综合防治方法,指出以降水量为指标或根据井上等的推理公式或小泉的MELANⅡ模似决定药
中国证监会12日表示,如果发现企业欺诈上市,会严惩不贷,决不手软。这应是对保障股市新政顺利实施的法规。因为,这看起来是一条法规,但它涉及到新政能否真正贯彻下去的关键。新政的本质就是还股市以中国之本、中国之源,还构成股市的股票以本来面貌——分红派息。最基本的是使投机炒作市转变为投资分红市;要分红,就必须不弄虚作假,就是实际业绩的展现,就是破除神话故事对正常实体经济和虚拟经济的危害;就是破除暴富神话对
目的探讨复方川紫方萃取油联合刺络拔罐治疗顽固脓包性皮炎的疗效。方法选取顽固脓包性皮炎患者78例作为研究对象,按照随机数字表法分成观察组和对照组各39例,观察组采用复方
目的评估高选择性α2受体激动剂右美托嘧啶对硬膜外麻醉下接受乳腺癌根治术的患者镇痛作用以及进行血流动力学分析。方法收集行乳腺癌根治术的患者50例,采取单盲法进行患者选
S-腺苷甲硫氨酸(SAM)是参与生物体众多生化反应的生理活性物质,酵母胞内ATP的水平是限制胞内SAM合成的因素之一。在酿酒酵母CGMCC 2842中克隆并过表达Adk1基因,发现Adk1基因
每次熊市的运行当中,由于市场的悲观情绪占据主导地位,特别是在现阶段新股发行制度改革的背景下,原来高价、高市盈率发行的新股得到了一定程度的约制,在市场持续下跌或对经济和股市未来悲观预期下,部分质地良好的一些创业板和中小板新股会以较低的发行价和市盈率上市。部分新股在上市一段时间后,由于大盘的总体环境不好,甚至出现破发现象,具备较好的投资价值,小盘次新股,由于盘子小,被主力资金控盘较为容易。庄家都属于新
2%立克秀湿拌种剂系德国拜耳公司生产,为了探索其湿拌种剂对大麦种、土传病害的效果,在2000年秋播对其进行了试验,现将试验结果总结如下:
本周市场震荡下行,上证指数周四盘中大跌至2032点,逼近2000点整数关口的考验,最后由以中石化、券商为首的权重股拉回,最终维持在2050左右震荡,从月K线来看,已经连续收了四根阴线,形势较为严峻。本周跌幅较大的行业或板块是前期强势股与中小盘个股。热点较为零散,仅3D概念股表现抢眼,大族激光、苏大维格等得到资金的热捧。总体而言,短线操作的难度非常高。  尽管本周两市表现欠佳,上证指数下挫了2.13
一般情况下,有三种情况常常会吸引强有力的做多资金进入股市:一是大盘指数环境进入了大牛市;二是上市公司盈利或预期盈利将大幅提高,三是市场出现了并购重组机会。如果这三种市场情况之一有发生而市场股价却没有明显上涨,则说明沪深股市的实际价值或股票投资者的认知判断肯定出现了问题。  如果问题是出在投资者的认知判断价格上,即由这支股票的买入数量是否很大来决定,也就是所谓的“技术上是否被严重低估”,这种情况下是
目前,各城市都出现了不同程度的交通拥挤、人口膨胀的问题。为了解决城市的交通问题、缓解地面矛盾,地铁工程得到了大力的推广与应用。但在地铁基坑工程施工过程中,常常由于