基于密度的KNN分类器样本裁剪算法

来源 :佳木斯大学学报:自然科学版 | 被引量 : 0次 | 上传用户:kxianwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
KNN算法在分类准确率和召回率方面具有较好的性能,但由于样本相似度计算开销大,导致分类效率低.针对此问题,本文提出一种基于密度的训练样本裁剪算法,对训练样本的各个样本类进行聚类,根据密度不同聚集成不同的簇,删除噪声数据并计算每个样本类的相似度阈值,然后将样本类内大于类相似度阈值的样本进行合并,以减少训练样本总数.实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,实现各个样本类内高相似度样本的合并,减少分类计算开销.
其他文献
UML是一种标准的图形化建模语言。基于UML构建公共图书馆绩效评价指标体系,分为需求分析、初始框架模型构建以及系统结构类图构建三个环节。应用UML构建公共图书馆绩效评价指标体系,能够增强公共图书馆绩效评价的科学性与规范性。
利用1958—2004年NCEP/NCAR全球逐日再分析格点资料和同期我国华南地区45站的逐日降水资料,从水汽条件、不稳定能量及抬升条件对发生在华南地区的157个连续性暴雨进行分析,并
外来农民工在城市化进程中由于生活预期和生活目标不同,形成了不同类型的农民工群体,并由此产生对信息的不同需求。本文通过对农民工不同类型群体的特点及信息需求的调查、分析
目的:HPV16持续性感染常与肺癌的发生密切相关,E6和E7蛋白是肺癌发生发展的主要致癌基因。我们前期研究发现,HPV16 E6和E7蛋白均可上调HIF-1α蛋白的表达,进而上调肺癌细胞中
高层钢结构住宅常用钢筋混凝土坡屋面的施工采用构件定型化纯悬挑模板支撑架工艺,受力传递直接,支撑稳固可靠,为今后类似项目的支撑架体系设计与施工提供参考。
近年来,我国出版高等教育在迅速发展的同时,与业界的期望和要求反而日益疏远,专业教育的改革已是迫在眉睫.针对这一现实,本文首先明确了新时期出版教育的目标与原则,强调出版
传感器配置是传感器网络研究的核心问题之一.传感器网络配置可以有效布置传感器网络节点、合理覆盖感知数据区域、延长感知区域传感器网络的运行周期,既能够准确地采集感知区
素东坡肉主料:自萝b500克辅料:鸡蛋60克、豆懵皮50克、淀粉(蚕豆)20克调料:花生油50克、香油2克、味精2克、盐5克、胡椒粉3克、酱油5克【制作过程】1.萝b洗净去皮,切成0.6厘米厚的大
对比胶粉改性沥青与SBS改性沥青,采用AC-13C,SMA-13及断级配AR—AC13三种混合料在120~200℃范围内击实,以此涵盖道路施工实际压实温度,模拟路面压实性能.研究结果表明,温度对胶粉改
本文主要对人血白蛋白的临床应用误区进行分析,并对其临床应用误区的相关对策予以探讨总结.