基于SNN相似度的KNN分类算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:woshi52031
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘技术就是为顺应这种需要发展起来的数据处理技术。分类算法是数据挖掘技术中一个重要的组成部分,这种技术根据已知类别的数据建立模型,从而使用该模型再对未知的类别数据进行分类。 首先,论文对数据挖掘中的技术之一一数据分类进行研究。详细分析了现阶段比较常用的分类算法以及各自的耗时和准确率的优劣之后,重点分析了KNN分类方法的思想。KNN方法是一个理论上比较成熟的方法,也是现有分类方法中一种简单、有效的方法。 其次,传统KNN在判定类别决策时,只与周围有限的相邻样本有关,并且在训练样本密度分布不均匀的时候,在类别边缘的样本容易出现误判。文献[1]提出了基于密度裁剪的KNN方法解决训练样本密度分布不均匀的问题,但是参数设置过多,并且对准确率影响很大。因此本文引入SNN相似度新概念,提出了一种新的改进方法—基于SNN相似度的KNN改进方法,不需设置过多参数,利用相似度越大,越有可能是同一类的思想,对数据进行分类。采用SNN相似度时,不仅仅是考虑数据点的距离,还考虑了数据点所处的环境,消除了不同类别间密度不均匀的影响。论文对新方法和基于密度裁剪的KNN方法和传统KNN方法在理论上进行了分析,证明改进后的方法能得到更好的分类结果。 最后,对新方法和前两个方法在UCU上的公共数据和三江并流的实际数据上进行了广泛的实验,在时间复杂性和准确率方面进行了比较。虽然时间复杂性没有改善,但分类方法的重要指标准确率有了很大的提高。实验显示了新方法具有更好的性能,验证了新方法的有效性和正确性。
其他文献
面向对象编程技术在实际的软件开发中早已大展身手并且深入人心,然而,随着软件开发的规模不断扩大,人们在使用面向对象编程方式时发现它可能会导致代码纠缠和代码分散的问题,由此
随着世界经济的稳步增长和汽车价格的不断下降,近年来私人汽车的持有量显著上升。在享受汽车带来便利的同时,因交通事故而产生的问题也日益突出。据统计,由于车后盲区所造成的交
随着计算机网络技术的飞速发展和广泛应用,网络安全问题日益突出。传统的静态安全技术包括防火墙和加密技术等有一定的防卫作用,但是缺乏主动检测入侵的机制并且需要人工来实施
在P2P网络中,拓扑构造和查找是两个最核心的问题,目前最主要的P2P体系架构包括集中索引式、分布式非结构化、分布式结构化和超级节点结构四种类型。集中索引式结构查找效率较高
随着Internet技术的飞速发展,流媒体分发技术取得了长足的进步,同时,日益增加的用户、视频数据和流媒体交互式需求,也给大规模流媒体分发服务带来了新的挑战。另外一方面,随着宽带
随着计算机技术和网络技术的不断发展,传统的手工监考安排方式已不能适应发展的需要。运用计算机技术,以其运作成本低、高效、灵活的突出优势,正在走进我们的工作和生活。高
现有的模式识别方法一般应用在已知的领域,要对一个不了解的专业领域实行模式识别,必须首先获取该领域的专业知识,而这往往要耗费很多的时间和精力。本文提出了一种不依赖于专业
近年来,突破传统计算领域种种束缚的量子计算,越来越受到人们关注。一方面,随着电子器件越做越小,其功能开始受到量子效应的干扰,致使传统计算机的能力无法继续保持如Moore定律描
判定表是分析和表达决策问题的有利工具,能够将复杂的问题按照各种可能的情况全部列举出来,简明且严密。在软件测试领域,将判定表结合上因果图可以构造出一个有效的软件测试方法
随着分布式计算环境的出现和分布式应用的不断发展,发布订阅作为一种新的通信模型为分布式应用提供了松散耦合的协同工作方式。这种通信模型为通讯的各方提供了时间上、空间上