基于不同类型数据的聚类算法研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:zz123251234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种无监督的学习方式,是数据挖掘的重要途径之一,也是统计机器学习、模式识别的重要研究方向之一.目前,针对数值型数据的聚类研究已取得丰硕的成果,而实际应用中,存在大量的分类型或混合型数据.因此,研究不同类型数据下的聚类算法就尤为重要.而聚类过程中通常又面临两大难题:类中心的选择和聚类个数的确定.为了解决这两个问题,本文分别以分类型和混合型数据为例,取得了以下研究成果:(1)针对分类型数据,本文主要研究分类型矩阵对象数据(一个属性上有多个取值的数据),并基于矩阵对象数据提出一种改进的MD fuzzy(?)-modes算法.该算法拓展了简单的“0-1”匹配,重新定义了矩阵对象数据的相异性度量,克服了用传统算法对该类型数据进行聚类会损失信息的不足.在类中心的选择上,结合模糊集概念,提出一种启发式更新算法,大大减少了时间复杂度.最后,在5个UCI数据集上验证了MD fuzzy(?)-modes算法的有效性.(2)针对混合型数据,基于信息熵给出了属性权重的新度量方法,并提出一种加权(?)-prototype算法来确定聚类个数.该算法在考虑属性权重的情况下,重新定义了混合数据缺失某类的类间熵和、有效性指标及相异性度量.实验结果表明,新提出的加权(?)-prototype聚类算法较Liang(?)-prototype算法在聚类精度等6个评价指标上都有一定的提高.本文的研究成果不仅丰富了不同类型数据下的聚类算法研究,更在一定程度上为分类型矩阵数据和混合型数据的聚类提供了新的方法支持,为数据挖掘的相关领域提供了新的技术支撑.
其他文献
写话是小学生学习书面表达初级阶段的内容和方式。写话教学是作文教学的基础,也是小学语文教学中十分重要的部分。分析小学低年级写话能力、教师写话教学实施情况、教师对写
本文总结了近年来高压直流输电滤波电容器可听噪声研究。从电容器振动噪声特性、电容器噪声评价技术和噪声治理措施等方面对最新研究成果进行了梳理,并分析了现有研究和工程
随着人们生活水平的不断提高,人们对食品安全问题的关注度也越来越高,人们对饮食要求也逐步在提高。即使在寒冷的冬天,人们也可以吃上反季节的蔬菜,满足人们对饮食的高要求。
虽然针对大学生医疗保障改革的基本思路已有雏形,但具体的方案还仅在个别地区试行,并且尚未形成较为统一的政策。针对大学生医疗保障存在的问题,基本的解决思路和政策建议是
随着我国航天技术的不断发展,越来越多的航天器在LEO轨道运行。大量存在于LEO轨道的原子氧(AO)对航天器表面的高分子材料产生强烈的侵蚀作用。聚酰亚胺的力学性能、光学、热
积雪对活动层和多年冻土近地表的热状态具有重要影响,并进一步影响陆地和大气间的碳交换。目前积雪对多年冻土热状态的影响研究主要集中在积雪较厚的环北极地区,而在积雪相对
区域认知素养在初中区域地理学习中起着决定性作用,但现阶段初中区域地理的学习常常以机械记忆为主,学生仅是简单了解了各个区域基本知识,学生的素养和能力的发展有所欠缺。
拍卖市场在世界各地的农产品流通体系建设中发挥着重要作用,拍卖制也正在成为我国农产品流通体系的重要的交易形式之一,随着现代信息技术发展的影响,拍卖市场开始由交易双方
<正>政治的去宗教化一个现代读者在初次阅读霍布斯的《利维坦》时,免不了会产生这样的困惑:一部讨论国家的起源与目的的政治哲学著作,为什么会花一半多的篇幅去诠释《圣经》
会议
针对滨莱高速公路跨胶济客运专线铁路工程中的桥梁设计及施工方案进行研究,提出矮塔斜拉桥转体、预应力混凝土连续梁转体及预应力混凝土T形刚构转体的桥梁设计方案,并对各方案