混合属性数据聚类算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户：beakerzhou

【摘要】

：

随着信息技术的飞速发展和广泛应用,社会进入了一个信息化的时代。数十年来,信息产生、组织和流通方式正发生着革命性的变化,各行各业每天都会积累大量的数据。然而,数据规模

【作者】

：

钱潮恺

【出处】

：

浙江工业大学

【发表日期】

：

2015年期

【关键词】

：

混合属性聚类维度频率近邻传播属性距离数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的飞速发展和广泛应用,社会进入了一个信息化的时代。数十年来,信息产生、组织和流通方式正发生着革命性的变化,各行各业每天都会积累大量的数据。然而,数据规模爆炸性增长的同时,数据产生的附加价值似乎没有与之同步增长。如何从数据中提取出有价值的信息成了最迫切的问题。在这种环境下,数据挖掘开始受到了学者们的广泛关注,而数据聚类正是数据挖掘领域的热门课题之一,在现实世界中有着广泛应用。传统的聚类算法主要是针对单一属性的数据而设计的。然而,大量的研究表明目前的数据大多都不是单一属性的,而是混合属性的数据。这就导致传统的聚类算法无法处理这类混合属性的数据集。因此,如何提出一种适合混合属性数据集的聚类算法成了目前聚类分析领域的一个热点问题。本文对混合属性聚类这一热点进行了深入的研究,主要工作和成果体现在以下几个方面:1.对数据挖掘的研究背景及现状、热点趋势、数据挖掘的任务和数据挖掘语言做了简要地介绍,并且对聚类算法进行了概述,重点介绍了混合属性数据、聚类算法中的相似性度量方式、一些具有代表性的聚类算法以及混合属性聚类的研究现状。2.改进了混合属性数据集的相异度计算方式,并引入了图论中的连通性的概念,提出了一种基于维度频率相异度和强连通融合的聚类算法:CADFSC。算法中,利用KPrototypes对初始中心点的敏感性,多次运行得到多个不同的预聚类结果,通过强连通融合的策略对预聚类结果进行合并剪枝,从而得到最终的聚类结果。通过仿真实验表明,相较于K-Prototypes等算法,CADFSC算法在聚类精度和聚类纯度方面都有所提高。同时,就算法中的参数对聚类结果的影响作出了讨论,并给出了参数设置的建议。3.针对近邻传播聚类算法不能处理混合属性数据集的问题,提出了一种新的距离公式,并应用到近邻传播聚类算法中。与传统聚类算法不同的是,该算法不需要计算虚拟的中心点,同时考虑了数据集整体分布对于聚类结果的影响。通过仿真实验表明,算法具有较好的聚类效果。

其他文献

加强局域网维护减少计算机网络故障分析

随着社会的不断发展,使得互联网技术也在人们的日常生活与工作中得到了普及。而互联网技术的普及,也使得计算机在日常的工作过程中会受到各种外来信息的干扰,并出现一系列的

期刊

局域网维护计算机网络网络故障

播种符号,启蒙学生“准代数式”意识

符号思想是小学数学的基本思想,渗透符号意识是学生数学教学的理性回归。通过播种符号,可以启蒙学生"准代数式"意识。教学中通过孕育学生的符号意识、启迪学生的符号思维、催

期刊

播种符号算术思维代数思维

论文学的真实性和倾向性

【正】 (一)关于文学的真实性和倾向性,是多年来我们文艺领域内争论不休的一个重要问题,虽然从理论上来讲,大家也都认为这两者是应该统一的,但现实却是有的同志对这二者的关

期刊

文艺作品文艺创作主观主义托尔斯泰巴尔扎克秦兆阳客观主义现实主义

TiAl基合金热变形行为及高温力学性能研究

TiAl基合金是具有广泛应用前景的轻质高强结构材料,然而其热加工性能较差。本论文通过高温压缩模拟试验结合光学显微镜、扫描电子显微镜、透射电子显微镜等试验手段,比较了粉

学位

TiAl基合金热变形行为本构方程热加工图高温力学性能

大数据背景下的价格歧视策略研究

随着大数据时代的到来,企业经营所面对的商业环境正在发生巨大的变化。商业环境的变化将需要新的商业模式与之相适应。网上社交平台发展迅速,很多大型企业利用自身平台优势可

学位

大数据歧视定价服务业消费者剩余

基于4P、4C理论的苎麻服装营销策略研究——以华升集团公司为例

苎麻是中国最重要的天然纤维之一。随着苎棉混纺等技术革新,苎麻服装的发展迈向了新高度;但苦于苎麻服装市场份额较小,苎麻只占据人们普遍消费的棉、麻、丝、毛中很小的一部

期刊

苎麻服装华升集团营销策略

肩负支援全国解放重任的城市——纪念哈尔滨解放70周年

<正>2016年4月28日是哈尔滨解放70周年纪念日。70年前,哈尔滨作为全国解放最早的大城市,不仅是中共中央东北局、东北民主联军总部和东北行政委员会的所在地,也是我党在东北的

期刊

哈尔滨李兆麟东北民主联军哈尔滨市委卫戍司令部国民党

新型城镇化的理论基础、现实选择与推动策略

新型城镇化的提出是历史和现实的统一。该文从社会分工理论、系统工程理论、二元结构理论、制度变迁理论和可持续发展理论五个层面来剖析新型城镇化的主要特征,总结其应具备

期刊

理论基础现实选择发展思路建设方向

银行经营管理必须重视金融文化和金融创新

<正>在金融体制改革和金融整顿取得成功的基础上,朱副总理提出了一个新的战略目标:把银行工作重点转移到加强经营管理和提高资金使用效益上来,尽快把我国国家专业银行办成具

期刊

金融创新金融业银行经营管理金融企业文化

无糖型半夏泻心颗粒制备工艺的研究

目的优选无糖型半夏泻心颗粒最佳制备工艺。方法以黄芩苷、小檗碱含量和出膏率为指标,应用L9(34)正交设计和多指标综合评分法优选无糖型半夏泻心颗粒最佳水提取工艺;以成型性

期刊

无糖型半夏泻心颗粒正交实验制备工艺

混合属性数据聚类算法研究

与本文相关的学术论文