K-Modes聚类算法优化研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:sznc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法可以用于将整个样本集合划分为多个群落,从而发现有意义的样本群体。因此作为一种高效的数据分析工具,聚类算法早已成为国内外学者广泛研究的热点技术之一。Huang提出的K-Modes聚类算法使用属性匹配度量公式拓展了K-Means聚类算法,使其可以对无序型分类属性数据执行聚类分析。该算法使用的0-1简单匹配相异度度量方法弱化了类内同一维度属性下属性值之间的相似性,忽略了不同维度属性之间的差异性。单一属性值的聚类中心Modes忽视了某一维度属性可能存在多属性值组合,且算法受初始中心点影响很大。以上问题都有可能导致分类数据的聚类效果较差。此外由于数据的爆炸式增长,串行执行的传统算法难以在有效时间内处理超大规模的数据集和超高维度的数据模型。Spark作为最新的大数据平台善于执行海量数据的分析任务,然而Spark现有的机器学习算法库中缺少分类数据的聚类算法,导致无法有效利用Spark平台处理海量分类数据的聚类问题。针对以上问题本文首先提出了一种MAV-K-Modes聚类算法,使用基于预聚类的多属性值聚类中心Modes初始化方法和基于多属性值聚类中心Modes的相异度度量方法。其次本文在改进后的MAV-K-Modes聚类算法基础上基于Spark平台对该算法进行并行化改造,并分别针对静态数据集和增量数据集提出了相应的设计方案。本文的主要研究内容有以下几点:(1)针对算法准确率问题,本文提出了一种基于多属性值聚类中心Modes的MAV-K-Modes聚类算法有效提升了无序型分类数据聚类结果的准确率。该算法使用基于预聚类的多属性值聚类中心Modes初始化方法,减轻了算法受局部最优解的影响。使用的基于多属性值聚类中心Modes的相异度度量方法改进了传统K-Modes算法简单0-1匹配度量方法的缺点,有效防止了聚类过程中重要属性值丢失,强化了类内同一维度属性下属性值之间的相似性。使用信息熵理论计算不同维度属性的权重,强化了不同维度属性之间的差异性。(2)针对算法执行效率问题,本文基于Spark分布式计算平台提出了一种适用于静态数据集的并行MAV-K-Modes聚类算法和一种适用于增量数据集的增量MAV-K-Modes聚类算法。并行MAV-K-Modes聚类算法在不影响聚类结果准确率的前提下,有效提升了处理海量分类数据的聚类算法执行效率。增量MAV-K-Modes聚类算法在略微降低聚类结果准确率的前提下,有效提升了处理增量数据集的聚类算法执行效率。
其他文献
随着西南地区高速公路建设的快速发展,公路建设及后期运营期间的边坡工程问题也日益突出,其中顺层边坡发生失稳破坏的问题尤为严重,对工程建设和人民生命财产安全有着严重的威胁。在云南滇中地区,由于“滇中红层”的特殊性质,顺层边坡失稳的发生往往易受到降雨因素的影响,在外界与内部因素的共同作用下导致边坡的突变失稳。因此,对滇中红层地区的顺层边坡突变失稳问题的研究对公路工程建设具有重要的意义。本文以云南玉楚高速
“红层”广泛分布于我国华中、华南、西南及西北广大地区,具有岩体强度较低、抗风化能力弱、亲水性强以及浸水后岩体软化,强度迅速下降的特点,使得“红层”工程问题日益突出。淮北矿业集团信湖煤矿地质构造复杂,普遍被古近系巨厚“红层”所覆盖,加上目前针对“红层”工程地质与水文地质研究和借鉴较少,使得“红层”工程地质特性及煤层开采可能诱发的灾害问题越来越受关注。本文以安徽省信湖煤矿82采区“红层”为研究对象,在
背景近年来,尽管在乳腺恶性肿瘤分子和基因方面的研究取得了诸多成果,腋窝淋巴结有无转移仍是当前评估乳腺癌预后的重要因素,并且决定着后续对治疗方案的选择。目前乳腺癌患
本文对酸法合成α-FeO(OH)反应的动力学过程进行了研究,考察了初始浓度、反应温度、pH值、氧分压、空气流量及搅拌强度对Fe(OH)2悬浮液氧化速率的影响,确定对Fe(Ⅱ)在晶核生成阶段
中国古典寺庙园林虽同属于中国古典园林体系,却不同于古典文人园林,寺庙园林更讲究禅意和佛教典故。通过对潭柘寺的人文溯源,所地理位置、空间布局及园林设计手法分析,表明了
摘要:《思想道德修养与法律基础》课是思想政治理论课重要课程之一,它是对大学生进行思想政治教育的主渠道和主阵地,市场经济的发展为大学生思想政治教育提供许多机遇的同时也带来很多挑战,切实提高思想道德修养与法律基础教学时效性,促进大学生思想道德修养与法律素质的全面提高具有重要意义,本文以此为依据,以期为提高思想道德修养与法律基础教学实效性提出有针对性的建议。  关键词:教学实效性;关系;学生  中图分类
目的观察扶正化瘀胶囊联合核苷(酸)类似物(NAs)治疗NAs单药治疗后获得完全病毒学应答,但肝纤维化指标仍改善不佳的代偿期乙肝肝硬化患者的1年疗效。方法将已接受NAs初始治疗
随着现代通信技术对信息传输速率和信道容量的要求越来越高,宽带阵列天线逐渐代替传统的单个天线被广泛应用在现代通讯技术中。在军事应用中,相控阵雷达通常由宽带阵列天线组成,但是传统宽带阵列天线受限于单元之间的耦合效应,不能实现更宽的工作带宽。紧耦合阵列天线打破传统设计的禁锢,巧妙地利用相邻单元间的互耦效应拓展了天线的带宽。本文基于紧耦合结构讨论了阵列天线的性能,论文的工作主要分为以下几个部分:1.首先分
第一部分:病理性瘢痕成纤维细胞中MECP2的表达及差异研究目的:探讨人体正常皮肤、正常瘢痕、瘢痕疙瘩及增生性瘢痕处于不同生长时期时成纤维细胞中MECP2的表达量及差异。研究方法:收集临床手术患者标本,其中包括正常皮肤33例,正常瘢痕32例,增生性瘢痕51例,瘢痕疙瘩35例,并将增生性瘢痕按照不同生长时间分为四个组即:0-3M组、3-6M组、6-12M组、>12M组。然后通过免疫组化技术、We