论文部分内容阅读
随着信息技术的快速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘技术就是为顺应这种需要发展起来的数据处理技术。分类算法是数据挖掘技术中一个重要的组成部分,这种技术根据已知类别的数据建立模型,从而使用该模型再对未知的类别数据进行分类。
首先,论文对数据挖掘中的技术之一一数据分类进行研究。详细分析了现阶段比较常用的分类算法以及各自的耗时和准确率的优劣之后,重点分析了KNN分类方法的思想。KNN方法是一个理论上比较成熟的方法,也是现有分类方法中一种简单、有效的方法。
其次,传统KNN在判定类别决策时,只与周围有限的相邻样本有关,并且在训练样本密度分布不均匀的时候,在类别边缘的样本容易出现误判。文献[1]提出了基于密度裁剪的KNN方法解决训练样本密度分布不均匀的问题,但是参数设置过多,并且对准确率影响很大。因此本文引入SNN相似度新概念,提出了一种新的改进方法—基于SNN相似度的KNN改进方法,不需设置过多参数,利用相似度越大,越有可能是同一类的思想,对数据进行分类。采用SNN相似度时,不仅仅是考虑数据点的距离,还考虑了数据点所处的环境,消除了不同类别间密度不均匀的影响。论文对新方法和基于密度裁剪的KNN方法和传统KNN方法在理论上进行了分析,证明改进后的方法能得到更好的分类结果。
最后,对新方法和前两个方法在UCU上的公共数据和三江并流的实际数据上进行了广泛的实验,在时间复杂性和准确率方面进行了比较。虽然时间复杂性没有改善,但分类方法的重要指标准确率有了很大的提高。实验显示了新方法具有更好的性能,验证了新方法的有效性和正确性。