基于动态权重的k-modes聚类算法

来源 :延安大学 | 被引量 : 0次 | 上传用户：lixiang1989521

【摘要】

：

【作者】

：

刘逗逗

【出处】

：

延安大学

【发表日期】

：

2020年12期

【关键词】

：

聚类分析 k-modes算法分类型数据相异度度量动态权重初始中心选择

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的迅猛发展,数据的规模与日俱增、类型日益复杂,如何对现实中海量数据进行有效的处理、分析和应用成为迫在眉睫的课题。在这样的背景形势下,数据挖掘技术应运而生,而且在各行各业得到了广泛应用。聚类分析是数据挖掘领域最重要的分支之一,是根据某种相似度度量对数据集进行划分的数据挖掘技术。目前,数值型数据的聚类分析取得了很多成果,但实际的数据库和大型数据集不仅包括数值型数据,也包括大量的分类属性数据,如生物信息数据、疫情防控数据等。由于分类型数据不具有数值型数据固有的几何特性,针对数值型数据的聚类方法并不适用于分类型数据的聚类。因此,研究分类型数据聚类分析算法是非常必要的。论文详细介绍了聚类分析的概念及聚类分析中常用的数据结构、相似度量、目标函数等,分析了k-modes算法及其各种改进算法,对算法在相异度度量和初始中心选择两方面进行了改进,具体工作如下:(1)以信息共现知识为基础,基于数据对象属性之间的相互依存关系,建立了数据集属性之间的依存关联矩阵,提出了一种加权相互依存冗余度的距离度量方法,定义数据对象属性值之间的距离由内部距离和外部距离两部分的加权和组成,两个数据的距离为数据对象所有属性值之间距离的和。在具体计算时,一方面,内部距离采用传统k-modes算法的简单匹配相异度度量,体现两个不同对象属性值本身的异同;另一方面,外部距离利用属性之间的相互依存关联矩阵,对相互依存冗余度度量公式进行加权,体现其他属性与该属性的关联程度。(2)提出一种基于密度与距离的动态权重初始中心选择方法。该算法的主要思想是:第一,在初始中心选择过程中,基于待选点的距离,动态调整距离与密度线性相加时的权重,距离越远,密度的权重系数越大,距离越近,密度的权重系数越小,使候选初始中心尽量远离己选择的初始中心,同时不会丢失数据密集区的簇,使所选初始中心具有分布性。第二,动态调整密度计算时的半径,距离越远,半径越小,以避免选择到离已选的初始中心较远、周围相邻对象较多但分布相对松散的数据点和离群点,尽量选择到离已选的初始中心较远、但相对密度较大簇中的点,使所选初始中心具有区分性。第三,结合基于改进距离的离群点检测技术,依据数据点的离群因子,进一步筛选候选初始中心,将离群因子较大的点从候选中心集中剔除,确保选到合适的初始中心。实验结果表明,基于本文的距离度量和初始中心选择方法的改进k-modes算法,与传统的k-modes算法和其他改进k-modes算法相比,提高了算法的准确率与精度,降低了算法对初始中心选取的敏感度,证明了该算法的有效性。

其他文献

生物转化法高效生产塔格糖的研究

D-塔格糖是一种在自然界中存在但含量极少的天然己酮糖,具有抗龋齿、改善肠道菌群、降血糖等多种生理功能,在食品、医药及化妆品行业备受青睐,是最近几年研究的热点。实验室

学位

Lactobacillus brevisL-阿拉伯糖异构酶塔格糖发酵分离纯化

系杆拱桥吊杆索力测试研究

系杆拱桥的吊杆比较短,吊杆索力受两端约束条件影响比较大,采用振动频率法分析了吊杆在两端铰接、两端固结和等效铰接等3种约束条件下,其实测索力与设计值之间的差异。测试结

期刊

系杆拱桥吊杆索力测试振动频率法tied arch bridge suspender suspender force testing vibrating

中国瓷器缠枝纹装饰艺术特色研究

汉朝至元明清时期，中国瓷器缠枝纹的装饰题材由模仿向创造发展，装饰色彩由单色向多色发展，装饰规律由统一向变化发展，不仅反映出缠枝纹样的变化和发展，更映射出中国图形艺术的装饰

期刊

瓷器缠枝纹装饰艺术

近断层地震作用下平面不规则基础隔震结构的倒塌模拟

分析了平面不规则基础隔震结构在近断层地震作用下的抗震性能，并对其进行了倒塌过程模拟。基础隔震结构目前在国内外都比较常见，其安全性也得到了广泛的关注。由于基础隔震结构

期刊

近断层基础隔震结构平面不规则扭转倒塌模拟near-fault base-isolated structures plane irregular t

杨梅黄酮类化合物对α-葡萄糖苷酶活性的抑制作用

α-葡萄糖苷酶是2型糖尿病治疗的靶点之一。为了寻求膳食来源、高效、无或低毒副作用的α-葡萄糖苷酶抑制剂,利用酶抑制动力学、热力学方法及荧光淬灭光谱研究了杨梅黄酮类化

期刊

杨梅黄酮类化合物α-葡萄糖苷酶抑制动力学和热力学荧光淬灭

企业工效挂钩问题及完善办法

期刊

企业工资效益

飞机撞击核安全壳冲击载荷方程研究

本文采用应力波理论研究了飞机撞击核反应堆安全壳的冲击载荷特性。在对之前本问题应用最多的Riera方程进行分析之后,发现原Riera方程将飞机视为刚塑性体,在该假设下,飞机的破损区域的增长速度完全等于飞机完整部分的飞行速度。而这一假设是否在撞击过程中的任意时刻都能满足应有很大的疑问。由于在实验当中一次滤波之后数据当中没有看到这样的结果,因此在此基础之上提出了一个新的冲击载荷方程,对飞机破损速度进行了

学位

核安全壳冲击载荷方程塑性波飞机撞击

美展范式的几个问题——第十二届全国美展中国画展区观察

2014年9月26日上,“第十二届全国美术作品展览中国画作品展”在位于海河之畔的天津美术馆隆重开幕,此次展览共展出了来自全国的591件入选作品以及评委作品。基本反映出了当代

期刊

全国美展绘画题材传统技法没骨法几个问题

国产引进型300MW汽轮机组液压旁路系统改造

介绍了一种采用REXA集成型电液执行器对国产引进型300MW机组液压旁路系统进行改造的方案，解决了以往液压旁路系统不能正常投入工作的弊病。

期刊

汽轮机液压旁路系统REXA电液执行器

不同运动专项对皮下脂肪分布的影响研究

<正>目的:通过对不同运动专项学生不同部位皮褶厚度进行测量分析,探讨不同运动专项学生皮下脂肪分布的特征,为后续大众个性化减脂提供科学参考依据。方法:本研究以北京体育大

会议

基于动态权重的k-modes聚类算法

与本文相关的学术论文