有标签的数据聚类算法

来源 :天津工业大学 | 被引量 : 1次 | 上传用户:skynini83
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前大数据已迅速发展成为一个引起世界各地学术界、产业界甚至政府高度重视的热议话题,数据挖掘技术进步所产生的各种应用程序及其影响已经遍布到各个领域。在众多数据挖掘算法中,K近邻算法是一种稳定有效的非参数分类算法,已经广泛应用于分类、回归和模式识别等领域中,是一种传统的基于统计的模式识别方法。但K近邻算法在面对不平衡样本集时难以得到正确分类。本文正是在K近邻算法的基础上,针对不平衡样本集进行了相关研究。本文提出了一种新颖的带权重的数据聚类算法——有标签的数据聚类算法。本算法是从数据预处理与权重参数计算这两个方面来解决样本集不平衡的问题的。本算法在读取数据集后,首先要对数据集样本进行标注化预处理操作,旨在消除各维度的量纲影响,从而使各维度之间具有综合性。核心内容是构造带有权重参数的等高线函数。权重参数的计算方法是参照皮尔森相关系数原理,使样本距离与标签之间具有最大相关性,通过迭代求解出来的。之后再将权重参数带回到等高线函数中求得最近邻居。最后通过对比最近两代邻居结果的一致性以及算法的最大迭代次数来确定最终邻居。在本文中还对有标签的数据聚类算法的准确性进行了实验验证。在实验中采用了 Forest Fires数据集,该数据集的数据来自于在葡萄牙东北部地区收集来的真实数据。在实验中,分别将五条既存样本数据作为目标样本,通过有标签的数据聚类算法和K近邻算法对火灾烧伤面积进行判断,并将判断结果与数据集中的实际数据进行对比分析。通过该实验的对比分析,说明有标签的数据聚类算法具有较高的准确性。
其他文献
目的以翻译的中文版不孕不育生活质量量表(the fertility quality of life,FertiQ ol)评价其在不孕患者和备孕人群中的信度及效度。方法通过系统的翻译-回译形成中文版FertiQ
介绍广西民族学院数学与计算机科学系建系40多年来,特别是改革开放以来的发展情况
为了研究茬次和一天内不同收获时间对紫花苜蓿青贮饲料品质的影响,并进一步评价其饲用价值,本试验采用双因素设计,两茬紫花苜蓿于现蕾期同一天08:00(AM),13:00(M)和18:00(PM)
目的研究哌替啶复合丙泊酚在ERCP中的麻醉效果及安全性。方法 100例行无痛ERCP的患者,随机分A、B两组(n=50),A组以丙泊酚+舒芬太尼诱导,丙泊酚维持;B组以舒芬太尼+丙泊酚诱导,丙