混合属性数据聚类算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:beakerzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展和广泛应用,社会进入了一个信息化的时代。数十年来,信息产生、组织和流通方式正发生着革命性的变化,各行各业每天都会积累大量的数据。然而,数据规模爆炸性增长的同时,数据产生的附加价值似乎没有与之同步增长。如何从数据中提取出有价值的信息成了最迫切的问题。在这种环境下,数据挖掘开始受到了学者们的广泛关注,而数据聚类正是数据挖掘领域的热门课题之一,在现实世界中有着广泛应用。传统的聚类算法主要是针对单一属性的数据而设计的。然而,大量的研究表明目前的数据大多都不是单一属性的,而是混合属性的数据。这就导致传统的聚类算法无法处理这类混合属性的数据集。因此,如何提出一种适合混合属性数据集的聚类算法成了目前聚类分析领域的一个热点问题。本文对混合属性聚类这一热点进行了深入的研究,主要工作和成果体现在以下几个方面:1.对数据挖掘的研究背景及现状、热点趋势、数据挖掘的任务和数据挖掘语言做了简要地介绍,并且对聚类算法进行了概述,重点介绍了混合属性数据、聚类算法中的相似性度量方式、一些具有代表性的聚类算法以及混合属性聚类的研究现状。2.改进了混合属性数据集的相异度计算方式,并引入了图论中的连通性的概念,提出了一种基于维度频率相异度和强连通融合的聚类算法:CADFSC。算法中,利用KPrototypes对初始中心点的敏感性,多次运行得到多个不同的预聚类结果,通过强连通融合的策略对预聚类结果进行合并剪枝,从而得到最终的聚类结果。通过仿真实验表明,相较于K-Prototypes等算法,CADFSC算法在聚类精度和聚类纯度方面都有所提高。同时,就算法中的参数对聚类结果的影响作出了讨论,并给出了参数设置的建议。3.针对近邻传播聚类算法不能处理混合属性数据集的问题,提出了一种新的距离公式,并应用到近邻传播聚类算法中。与传统聚类算法不同的是,该算法不需要计算虚拟的中心点,同时考虑了数据集整体分布对于聚类结果的影响。通过仿真实验表明,算法具有较好的聚类效果。
其他文献
随着社会的不断发展,使得互联网技术也在人们的日常生活与工作中得到了普及。而互联网技术的普及,也使得计算机在日常的工作过程中会受到各种外来信息的干扰,并出现一系列的
符号思想是小学数学的基本思想,渗透符号意识是学生数学教学的理性回归。通过播种符号,可以启蒙学生"准代数式"意识。教学中通过孕育学生的符号意识、启迪学生的符号思维、催
【正】 (一)关于文学的真实性和倾向性,是多年来我们文艺领域内争论不休的一个重要问题,虽然从理论上来讲,大家也都认为这两者是应该统一的,但现实却是有的同志对这二者的关
TiAl基合金是具有广泛应用前景的轻质高强结构材料,然而其热加工性能较差。本论文通过高温压缩模拟试验结合光学显微镜、扫描电子显微镜、透射电子显微镜等试验手段,比较了粉
随着大数据时代的到来,企业经营所面对的商业环境正在发生巨大的变化。商业环境的变化将需要新的商业模式与之相适应。网上社交平台发展迅速,很多大型企业利用自身平台优势可
苎麻是中国最重要的天然纤维之一。随着苎棉混纺等技术革新,苎麻服装的发展迈向了新高度;但苦于苎麻服装市场份额较小,苎麻只占据人们普遍消费的棉、麻、丝、毛中很小的一部
<正>2016年4月28日是哈尔滨解放70周年纪念日。70年前,哈尔滨作为全国解放最早的大城市,不仅是中共中央东北局、东北民主联军总部和东北行政委员会的所在地,也是我党在东北的
新型城镇化的提出是历史和现实的统一。该文从社会分工理论、系统工程理论、二元结构理论、制度变迁理论和可持续发展理论五个层面来剖析新型城镇化的主要特征,总结其应具备
<正>在金融体制改革和金融整顿取得成功的基础上,朱副总理提出了一个新的战略目标:把银行工作重点转移到加强经营管理和提高资金使用效益上来,尽快把我国国家专业银行办成具
目的优选无糖型半夏泻心颗粒最佳制备工艺。方法以黄芩苷、小檗碱含量和出膏率为指标,应用L9(34)正交设计和多指标综合评分法优选无糖型半夏泻心颗粒最佳水提取工艺;以成型性