论文部分内容阅读
目前大数据已迅速发展成为一个引起世界各地学术界、产业界甚至政府高度重视的热议话题,数据挖掘技术进步所产生的各种应用程序及其影响已经遍布到各个领域。在众多数据挖掘算法中,K近邻算法是一种稳定有效的非参数分类算法,已经广泛应用于分类、回归和模式识别等领域中,是一种传统的基于统计的模式识别方法。但K近邻算法在面对不平衡样本集时难以得到正确分类。本文正是在K近邻算法的基础上,针对不平衡样本集进行了相关研究。本文提出了一种新颖的带权重的数据聚类算法——有标签的数据聚类算法。本算法是从数据预处理与权重参数计算这两个方面来解决样本集不平衡的问题的。本算法在读取数据集后,首先要对数据集样本进行标注化预处理操作,旨在消除各维度的量纲影响,从而使各维度之间具有综合性。核心内容是构造带有权重参数的等高线函数。权重参数的计算方法是参照皮尔森相关系数原理,使样本距离与标签之间具有最大相关性,通过迭代求解出来的。之后再将权重参数带回到等高线函数中求得最近邻居。最后通过对比最近两代邻居结果的一致性以及算法的最大迭代次数来确定最终邻居。在本文中还对有标签的数据聚类算法的准确性进行了实验验证。在实验中采用了 Forest Fires数据集,该数据集的数据来自于在葡萄牙东北部地区收集来的真实数据。在实验中,分别将五条既存样本数据作为目标样本,通过有标签的数据聚类算法和K近邻算法对火灾烧伤面积进行判断,并将判断结果与数据集中的实际数据进行对比分析。通过该实验的对比分析,说明有标签的数据聚类算法具有较高的准确性。