基于混合属性数据的聚类分析算法的研究与应用

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:kevin_dai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术能够从大量的、无规则的数据集中提取有价值的信息,它是信息技术自然演化的结果,可以解决人们对有用信息搜索的需要。聚类分析是数据挖掘中一个应用广泛的工具,它能在无先验信息的前提下,从潜在的数据集中发现令人感兴趣的知识。其目标是通过聚类将数据集分成若干个类或簇,使得同一簇内的对象相似度尽可能大,而不同簇的对象相似度尽可能小。在实际应用需求的驱动下,研究者们已经提出了多种聚类算法,并在生物医学、客户关系管理、图像处理、模式识别等领域取得了大量的成果。然而,现实世界中的数据大多是由数值属性和分类属性所构成的混合数据,而能够处理这类数据的大多数算法存在性能及聚类质量不高等问题,所以混合属性数据聚类算法的研究成为聚类分析领域的一个热点问题。从提高聚类算法准确率和效率的角度出发,本文对已有的混合属性数据聚类算法进行了研究,主要解决了k-prototypes算法中初始聚类中心点选取以及分类属性相异度计算问题,并在此基础上,提出了基于平均差异度的改进k-prototypes聚类算法。首先,通过利用平均差异度选取初始聚类中心,避免了k-prototypes算法选取初始聚类中心的不确定性。其次,针对k-prototypes算法中的混合属性数据度量公式忽视了数值属性数据的重要性以及不能有效利用聚类集信息,尤其当数据量增多、属性类型复杂时,不能完全体现出数据对象与类之间差异的问题。通过利用信息熵对数值数据进行加权,提高了算法效率,并对分类属性度量公式进行了改进,使得数据对象能够更科学地划分到所属的聚类集中,进而给出了一种混合属性数据度量公式。为验证改进算法的有效性,在真实数据集上进行仿真实验,分别用不同的聚类算法进行比较分析,实验结果表明:改进的算法提高了聚类的准确率和稳定性。最后,将改进后的聚类算法应用到医学数据集的分析中。对皮肤病数据进行了分型识别,以判断患者的疾病类型。并对心脏病患者的诊断数据进行聚类,分析患者的各项指标,对患者是否存在心脏病的风险进行了预测,说明了算法在医学数据分析方面具有良好的应用前景。
其他文献
本文阐明了人类会计思想演进的主体脉络。在人类会计思想"第一历史起点"的支配下,最初的原始计量记录方法用于采集经济时代越冬食品的储备与分配管理,以使人类摆脱生存危机。
通过工程实例,介绍了在长大隧道施工过程中如何对水环境污染、大气污染、隧道内空气污染、固体废弃物处理、植被保护、防止水土流失、保护土地资源等环境进行保护的措施。
在西部大开发和教育强区建设的背景下,新疆高等教育办学水平呈现稳步提升态势。该文利用数据包络分析法(DEA)对新疆2002—2012年高等教育投入效率进行纵向分析评价,得出新疆
21世纪的国际恐怖主义活动更加复杂多变,而且愈演愈烈,给当今世界和平与安全带来了更大的危害,引起国际社会严重关切。旨在打击和防范国际恐怖主义的国际法在斗争中产生并不
深基坑止水帷幕透水渗漏是基坑开挖过程中经常出现的质量问题,对深基坑的边坡安全危害极大.笔者介绍了青岛市某医院扩建工程在深基坑支护施工中出现止水帷幕透水渗漏质量问题
随着社会经济的不断发展,人们的休闲娱乐生活也越来越多样化,数字电视成为人们休闲娱乐生活不可缺少的一个部分。同时,人们对于休闲娱乐生活的质量要求也越来越高,对数字电视
租赁业务的会计处理是实务中的难点和重点。文章从承租方角度出发,试分析不同租金支付方式对企业的一系列影响。企业不仅要根据自身情况和需要选择租金支付方式来达到利益最
恋爱是学生在大学阶段常谈的话题,也是对学生影响比较深刻的话题。而随之而来的恋爱心理问题也变得越来越凸显,严重影响了大学生的身心健康。基于此,文章在对大学生恋爱心理
计量是企业生产、经营管理和技术进步的一项重要的基础工作,是企业降低成本、减少消耗、提高产品质量,进而提高经济效益的重要手段,在企业的发展中起着重要作用。本文分析了
本文介绍了郑汴路立交桥上部结构施工中,几种支架组合的沉降量估测和设置,设计预拱度的分布计算和施工控制方法。