论文部分内容阅读
数据挖掘是从数据中挖掘出有价值信息的过程。分类算法是数据挖掘学科的主流研究课题之一,任务是将未知类别的数据项映射到相应类别。KNN算法是分类挖掘领域应用最广泛的分类算法之一。本文针对KNN分类器进行了研究和分析,并围绕算法的不足在决策规则、相似性度量方面进行了改进。论文主要工作如下:传统KNN分类器的决策规则是在选定近邻之后,对k个近邻实例进行类别统计从而预测待测实例的类标签。显然,这种简单的统计判别方式没有有效利用近邻样本的信息。针对KNN算法决策规则的缺陷,本文引入近邻支持度和类可信度的概念以生成新的决策规则。首先,以近邻样本的相似度信息为关注点,引入近邻支持度的概念;然后,通过考虑样本分布情况来计算每个类别的类可信度。实验表明,改进的ND_KNN算法提高了分类器性能,是一种有效、稳定的分类算法。传统KNN分类算法衡量数据集中的对象间关系时,往往认为各个对象间是独立同分布的,忽略对象间的相互作用和影响。改进的CS_KNN算法基于非独立同分布思想,通过挖掘对象的特征、特征值等多层次的耦合关系来构建新的相似性函数。首先通过衡量各个特征对分类的重要程度,研究特征与类别间的非独立同分布性进而形成类特征权重;其次,利用类特征权重形成对象间的特征内非独立同分布函数;然后,分析不同特征间的影响并生成特征间非独立同分布函数;最后将对象间的特征内、特征间、特征与类别间的非独立同分布关系融合到相似性度量中,构造关联相似性规则。实验表明,与传统KNN算法相比,基于非独立同分布思想改进的CS_KNN算法分类效果有明显提高。