针对混合数值型和分类型属性数据的划分式聚类算法研究

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:MUcrystal
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域的主要技术之一,该技术能够探索数据中的潜在结构,自动对数据进行划分,因而在学术界和工业界有着广泛的应用。但现有的多数聚类算法只能处理数值型或分类型数据,而现实世界中的数据集大多兼有数值型属性和分类型属性。这两种属性的取值差异较大,传统的聚类算法无法有效地处理。因而针对混合属性数据聚类算法的研究一直是聚类分析领域中的研究热点之一。本文研究了针对混合属性数据的划分式聚类算法,在传统聚类算法的基础上提出了两个新算法。在模糊K-prototypes算法的基础上提出了一个属性加权的模糊K-prototypes聚类算法AWFKP(Attributes Weighted Fuzzy K-prototypes)。算法结合了模糊隶属度、模糊质心和属性加权的思想:首先将模糊质心的思想运用于模糊K-prototypes算法的分类型属性簇中心表示,从而使簇中心能够更全面地代表簇信息;其次,考虑到不同属性对相异性度量的贡献不同,基于属性共现率的思想,设计了新的属性加权的相异性度量方法并给出了新算法;最后在UCI标准数据集上对算法进行了验证。实验结果表明算法聚类结果对应的划分相似度更高,对数据的处理结果更接近数据的真实划分。提出了基于遗传算法的K-prototypes聚类算法GAKP (Genetic Algorithm based K-prototypes)。针对K-prototypes算法对初始簇中心敏感的问题,将K-prototypes应用到遗传算法的框架中,使得新算法具有对簇原型的全局搜索能力。算法设计了基于划分相似度的适应度函数;采用随机生成法和随机选择法初始化种群,利用旋轮法选择待交叉的个体,使用精英策略保留个体至下一代;针对个体的数值型染色体和分类型染色体分别用模拟二进制交叉和单点交叉进行交叉操作;利用多项式变异和等概率变异分别对个体的数值型染色体和分类型染色体进行变异操作。在UCI标准数据集上对算法进行了验证,实验结果表明算法改善了K-prototypes对初始簇中心敏感这一缺点,并且能够取得更接近数据真实划分的聚类结果。
其他文献
植物-内生真菌复合体的相互作用对干旱区禾草的生态适应性具有重要的影响。本研究旨在通过检测新疆各种禾草不同部位的内生真菌带菌率及其形态,为内生真菌资源今后的开发利用
充分考虑平台系统在复杂海况下的耦合非线性效应,分别采用反映海床吸力效应的线性滞后模型和传统线性海床模型模拟立管触地区域和海床的相互作用,对深海钢悬链线立管进行非线性
2011年,世界经济将进入8年周期的上升过程,但由于世界主要经济体面临透支增长、通货膨胀、财政风险、紧缩政策,2011年,世界经济总体增长缓慢。
先锋小说的再叙事是后现代主义语境下出现的一种新的文学审美倾向。它抛开了旧有叙事成规,提出了一套异于前人的叙事话语。再叙事的涵义从话语范畴扩大到意识形态。历史、社会
我国传统农业正在加快向现代农业转型,现代化计量检测技术在农业中的推广将会对农业发展起到很强的促进作用,是我国农业未来发展的主要方向和必然趋势。在这一历史进程中,农
<正>《蜀道难》是李白的成名作,正是这首诗奠定了他的"诗仙"地位。关于这首诗的写作目的,教材注释说得很清楚:为送别友人入蜀而作。查阅相关资料,作者送别的这个朋友可能就是
成语作为维吾尔民间文学的主要成分,它无论在民间文学,还是在书面文学中占非常重要的地位。本文章阐述了《突厥语大辞典》中的包含动物词语的熟语及分析了熟语在人们生活中的实
本文基于现代社会互联网金融飞速发展所带来的电子支付方式这个前提,展开了一系列关于大学校园支付活动电子化的统计研究。主要试图解决两个问题:不同消费层次的学生对电子支
从HXD3型机车受电弓电空阀结构原理、外部环境及检修维护等方面出发,深入分析了受电弓电空阀故障的原因,提出了解决措施和方案,通过实施取得了良好效果。 From the aspects
为了提升小学美育水平,文章分析了当前小学阶段的美育存在的问题,提出提升小学美育水平的措施,包括学校重视美感教育,营造良好美育氛围;提升教师自身的审美能力;丰富美育形式