相异度量的k-modes聚类算法研究

被引量 : 14次 | 上传用户:l00ok100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的重要研究内容,通过聚类,将繁琐大量的数据集有效的划分成为一系列的子类,使得同一子类中的对象彼此相似,而不同子类中的对象尽量相异性高。在众多的聚类方法中,基于划分的聚类算法是最常见的聚类方法,特别是经典的k-means算法被广泛应用于工业和科学的各个领域。k-means算法对于处理数值型数据有好的聚类效果,但是不能处理常见的字符型数据。因此,对于字符型数据聚类算法的探索和改进,是聚类分析领域重要的课题之一。针对k-means算法无法处理字符型数据这一问题,k-modes聚类算法对其进行了扩展。本文对字符型数据处理的聚类问题进行了研究,并对各种改进的k-modes算法进行了对比和分析。然而,传统k-modes聚类算法中相异度量方法不能反映对象间的潜在的相似关系,特别是当数据量很大或数据集很复杂时,不能更好的区分样本间的差异。本文针对以上问题,对相异度量方法进行了改进,使其能更好的强化类间的相异性。最后,在传统k-modes聚类算法的基础上提出了一种改进的k-modes聚类方法。论文主要工作有以下几个方面:(1)对研究内容的背景知识和基于划分的聚类方法研究现状进行了阐述。(2)介绍了传统聚类分析方法的分类情况,并对聚类分析中的数据结构、相异度度量以及聚类准则函数进行了描述。(3)对传统k-modes算法的思想以及算法过程进行了详细的阐述,并对其优缺点进行了分析。(4)针对原有相异度量不能反映类内部的相似性,本文定义了一个属性值函数,该函数描述了属性值对于该属性的重要性以及类中心对于某一属性的代表程度,量化了对象与属性的内在关系。并基于此提出了本文的相异度量方法,此方法反映出不同对象在相同属性值下的相异程度,强化了类内的相似性。(5)结合改进的相异度度量方法,提出了一种改进的k-modes聚类算法。通过实验对提出的新方法进行验证,实验结果表明,与传统的k-modes聚类方法和Ng提出的k-modes聚类算法相比,改进后的聚类算法有更好的聚类效果。
其他文献
毛泽东是伟大的马克思主义者,是伟大的无产阶级革命家、战略家和理论家,是中国共产党、中国人民解放军和中华人民共和国的主要缔造者和领导人。尽管他晚年犯了严重的错误,但其功
随着科学技术的发达,在人们的生活物质资料日益丰富的同时,人们也越来越体会到了正在威胁着自身的环境危机,社会中人与自然的关系也日益凸显出来,人类开始不得不反思社会制度本身
行政生态学是20世纪60年代在西方行政学界兴起的一门以生态学的方法研究行政现象、行政行为与行政环境之间相互关系的行政学分支学科,其主要代表人物为佛雷德·W·里格斯。作
工作责任心是指责任主体在工作中认识到工作职责,并将职责内化成自己应该履行的义务,主动为职责承担相应后果的稳定的心理特质。国内外学者对于责任心的研究成果相当丰富,对于职
当前旅游业的发展已经进入了新的阶段,文化旅游由于自身深厚的文化内涵能够满足旅游者日益增长的文化需求和审美需求,已成为旅游业发展的一种潮流。由于文化旅游有利于弘扬传
咪唑啉类缓蚀剂是一种环境友好的绿色缓蚀剂,溶解性好、热稳定性高、毒性低。咪唑啉类缓蚀剂因其独特的分子构型,可有效抑制金属及其合金在各种酸洗液中的腐蚀,然而合成该类缓蚀
在比较历史制度分析视野下,城乡二元结构体制下的教育制度在短期内是一种自我实施的制度,而从长期看却是一种自我削弱的制度。尤其是在改革开放等重要环境变化时,城乡二元结
文章通过认真研读《财务报表列报的初步观点(讨论稿)》,从战略管理的角度对我国企业现行财务报告存在的弊端进行了深度剖析,并为企业财务报告的改进提出了参考性建议。
近年来,受积极心理学浪潮的影响,越来越多的研究者开始探讨人的积极心理品质,诸如幸福感、希望、乐观、满意度等研究课题屡见不鲜。尤其是关于幸福感的研究,对主观幸福感、心理幸
按照汉语语音的历史发展,利用舌尖中音d、t与舌尖后音zh、ch、sh的"血源"关系就能判断近500个字是翘舌音。