初始类中心选择及在非平衡数据中的聚类研究

被引量 : 2次 | 上传用户:xiaobenben
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,特别是信息技术的快速发展,网络上产生了大量不同形式的数据,尤其是非平衡数据。非平衡数据是指同一个数据集中某些类的样本数远远小于其他类的样本数,样本数量的悬殊,往往伴随着类别内样本密度的差别很大。k-means聚类算法是被人们使用最普遍的一种聚类算法,但是利用该算法来处理数据,容易选择孤立点作为初始类中心,影响算法的执行效果,因此,如何选择合适的初始类中心成为一个亟待解决的问题。针对非平衡数据,k-means聚类算法对于包含样本数目多的类别来说准确率较高,但对于包含样本数目少的类则很低。在非平衡数据集中样本数目少的类别往往隐藏更多的信息,因此,准确的找出少数类中的样本具有重要的意义。针对k-means聚类方法,本文对算法的初始类中心点的选择做了研究,并针对非平衡数据的聚类问题,对类簇间相似性度量的计算方法做了研究。本文主要取得了以下研究成果:(1)结合谱聚类算法中的自适应尺度和最大最小距离算法的思想,提出了基于稀疏度和距离的初始类中心选择算法。在选择初始类中心时不仅考虑了初始类中心周围样本的分布,还考虑了不同初始类中心之间的距离。最后将提出的初始类中心选择算法应用于k-means和fuzzy k-means聚类算法的初始类中心选择,在UCI和真实数据上的实验结果表明提出的算法是有效和可行的。(2)受类簇间相似性度量方法中平均链接的启发,提出了类簇相似性的计算方法,并提出了基于类簇相似度矩阵的类簇合并算法。也就是在求类簇之间的相似性时,在考虑每个样本的稀疏度的基础上计算了所有样本之间的平均相似度。最后将提出的类簇合并算法与改进初始类中心选择的k-means和fuzzy k-means聚类算法相结合,在非平衡数据集上的实验结果表明提出的算法是有效和可行的。本文对k-means聚类算法的初始类中心选择和非平衡数据的聚类问题进行了一些研究,提出了Max_Min_SD算法和M_C_SA算法,通过实验表明了算法的有效性。在取得研究成果的同时,本文还有一些需要改进和探讨的地方。比如,为何k-means聚类算法对初始类中心的依赖程度高于fuzzy k-means聚类算法。本文的研究工作只是一个尝试,深入的工作有待进一步研究。
其他文献
对采用里氏硬度计进行测试的过程中,产生的不确定度与误差的原因进行了较为全面的分析,同时阐述了各类硬度测量值之间的关系。
近年来,可穿戴式设备和移动医疗发展迅速,出现了各种手表、手环、智慧衣等智能设备。然而目前这些设备功能相对简单,仅仅能够测量人体的某些健康参数。本文开发一款新型可穿
数字作品的合理使用问题是近来关于数字版权的激烈讨论中的热点。代表版权权利人的人主张废除甚至限制合理使用制度以维护版权人在数字时代的利益;反对者则主张废除合理使用
对虾养殖是我国养殖范围最广,面积最大的海水养殖业,养殖面积达到200万亩以上。目前国内外已发现对虾杆状病毒十余种,严重影响了这一产业的发展,其中对虾白斑杆状病毒(White spot
含砷废水和含砷尾矿是砷污染的两个重要来源,也是治理砷污染和回收利用砷资源的两个重要切入点。论文分析比较了砷污染治理和砷资源回收利用的相关技术,在此基础上研究开发了两
研究大鼠脑内γ-干扰素(IFN-γ)样免疫反应产物的分布及其电针刺激足三里穴后的变化,为免疫-神经-内分泌调节网络学说增添形态学证据,也为阐明针灸作用机理提供形态学资料。将健
立足文化振兴,又最大程度地接地气;关注戏迷需求,又想方设法地让更多的普通观众走近戏曲;紧扣河北梆子本质,又恰到好处地适应时代审美。这是戏曲专家对2019年1月完美收官的河
<正>恶心、呕吐、食欲不振是肿瘤患者最常见的症状之一[1]。随着病情的进展,上述症状发生频率不断增加,且程度加重。恶心、呕吐、食欲不振虽是自限性的,也很少危及生命,但却
随着全球化的加快和网络时代的到来,英语教育也应适应时代的需要。教育部2011年颁布的《义务教育英语课程标准》提出,义务教育阶段英语课程应该以提升学生综合素质和面向全体
通过对中国尾货服装市场的状况、尾货服装的来源、种类及其存在的利弊的分析显示,尾货服装市场具有显著的价格优势,他的出现在一定程度上对主流销售渠道造成了潜在影响。尾货