面向K-modes聚类的初始中心选择方法研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:javawm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的快速发展,数据量已出现爆炸式的增长。把海量数据变成可用信息,这就要求我们开发一些工具,这些工具能够从大量数据中挖掘出有效的信息。数据挖掘技术能够从海量的数据中挖掘出新颖且有规律,对决策有用的信息或者规则。聚类分析则是数据挖掘中最重要的挖掘工具之一,在众多行业中得到了极为广泛的应用。K-modes聚类算法适用于处理类别型数据集,思想易被理解且实现简单,近年来已成为人们数据挖掘和科学决策的研究热点。但是K-modes聚类算法结果的优劣对初始中心的选择尤其敏感,一旦初始中心选取不当,则容易出现各种问题而达不到应有的聚类效果。因此选择合适的初始聚类中心是K-modes算法的关键步骤。在本文中,我们从改进距离度量方式以及离群点检测的角度来研究K-modes聚类算法的初始中心选择问题,并提出了有效的K-modes聚类初始中心选择机制。本文的主要研究工作如下:(1)利用知识粒度、粗糙集中的粗糙度等相关概念,提出一种新的针对类别型数据的距离度量标准——加权重叠距离。在计算加权距离度量时,我们根据每个属性重要性的大小为不同的属性赋予不同的权值,并且为无关属性赋予较低权重,从而解决实际应用过程中不同属性贡献度不同的问题。另外,我们把新提出的加权重叠距离应用到K-modes算法中,进而提出一种基于新的加权重叠距离的K-modes算法KMGRE。我们在UCI数据集上进行了相关实验,实验结果表明,改进后的K-modes聚类算法其性能要优于传统的K-modes算法。(2)提出一种基于粒计算与粗糙集(简称GR)的离群点检测方法。由于传统K-modes聚类算法在初始中心选择过程中很有可能将离群点选作初始中心点,从而影响聚类的质量,因此,本文将对象的离群程度作为选择初始中心的一个关键因素。针对现有的离群点检测方法所存在的问题,本文提出一种基于粒计算与粗糙集的离群点检测方法。该方法采用了基于信息表的粒计算模型,对于任意对象Ux?和U上的一组不可区分关系,根据每一个不可区分关系,我们都可以获得一个包含x的颗粒g(g是一个对象子集)。为了获得论域U中每个对象x的离群程度(进而获得离群点),我们先计算颗粒g的离群程度,然后再利用颗粒g的离群程度来计算对象x的离群程度。(3)结合(1)中所提出的加权重叠距离以及(2)中所提出的离群点检测方法,进一步提出一种新的K-modes聚类初始中心选择算法Ini_WGROD。通过计算每一个对象的离群程度值以及当前对象与已有中心点之间的加权重叠距离来选择初始中心点,Ini_WGROD算法可以使得离群程度低的对象更有可能成为初始中心点,从而避免了将离群点选做初始中心点的问题,提高了K-modes算法的聚类效果。另外,通过考虑当前对象与已有中心点之间的加权重叠距离,也可以避免出现多个初始中心点来自于同一个聚类簇的现象,从而使得被选出的初始中心点能够高质量地代表不同的聚类簇。
其他文献
目的:观察补阳还五汤加针刺联合西药治疗中风偏瘫后遗症的临床疗效。方法:将66例中风偏瘫后遗症患者按1∶1的比例分为两组。对照组33例给予改善脑功能、降压、降脂药物。治疗组
本文分析了转子式压缩机的摩擦磨损行为及控制磨损的重点环节,对近年来在转子式压缩机方面的减摩技术进行了论述。
目的:探讨收治的糖尿病合并尿路感染的临床资料特点。方法:对确诊的45例糖尿病合并尿路感染患者与同期住院的30例非糖尿病尿路感染患者进行对照研究。结果:糖尿病组尿路感染发生
中空玻璃承受均布横向荷载时,外、内片与密封气体之间产生复杂的交互作用,现行规范(程)基本按抗弯刚度比例在外、内片玻璃之间分配荷载。本文使用有限元法,分析点支式中空玻璃在承
着眼未来导弹武器作战精确化的要求,阐述了弹道导弹突防物理过程,提出导弹突防因素识别步骤,建立了导弹突防因素结构框架。运用大系统理论的分解协调法,将弹道导弹突防效能控
教师队伍拥有硕士学历教师比例的增多,表明我国教师队伍建设初见成效。但是,仍需对这一现象进行冷静思考,分析不同类型可能成为教师的硕士生之间可能存在的差异。采用混合研究方
利用1964年~2015年河源市寒露风观测资料,采用线性倾向估计分析、小波分析、Mann-Kendall检验和合成分析方法,研究了河源市寒露风天气的气候变化特征。结果表明:1964年~2015年河
新闻线索是新闻的重要组成部分,而新闻线索却在于电视台记者不断地探索和发现,这就要求负责新闻线索采集的记者能够通过拓宽自身视野发现新闻线索,并且善于在此过程中发现富
目的:探讨胰腺病变引起的门静脉高压症的临床诊断和治疗。方法:回顾性分析本院2006年3月-2012年3月收治的35例胰源性门静脉高压症患者的临床诊疗情况。结果:35例患者基础胰腺病
农业是我国的第一产业,是国民经济快速发展的重要基石。在农业经济快速发展的新形势下,传统的会计模式业已难以满足农业经济发展的需求。因此,为推动农业经济的长效发展,为突