基于信息熵的聚类个数确定方法研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:ylhly200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为一种无监督学习方法,是数据粒化以及信息压缩的一个基本工具,同时也是机器学习研究和数据挖掘应用中的一个重要内容。迄今,针对不同的应用领域,研究者已经提出了多种聚类算法,并在信息检索、图像处理、金融欺诈、医疗诊断和生物信息学等领域得到了广泛的应用。然而提出的算法大多需要在算法运行前指定聚类个数,而存大部分实际应用中,聚类个数是不可能事先知道的,而且也很难预先指定聚类个数。因此,确定聚类算法中的聚类个数在聚类分析中具有非常重要的意义。本文针对聚类分析中聚类个数确定问题进行了较为深入的研究,主要内容如下:(1)针对分类型数据,运用信息熵给出了类与类之间的相异性度量,结合划分和层次聚类的思想,提出了一种分类型数据聚类个数的确定算法,并在UCI数据集上通过实验验证了该算法的有效性。(2)针对混合型数据,运用信息熵把数值型数据和分类型数据中类与类之间的相似性度量有效地统一起来,通过扩展分类效用函数给出了一个混合型数据聚类结果的有效性评价指标,提出了一种混合型数据的聚类个数确定算法,并在UCI数据集上通过实验验证了该算法的有效性。(3)基于B/S架构技术,设计并实现了一个聚类分析数据挖掘系统。该系统的主要功能包括数据预处理、聚类个数确定、初始聚类中心选择、聚类算法和聚类结果可视化和系统管理等。系统采用了组件式开发技术,提供了友好的图形界面和开放的编程接口,保证了系统的通用性和可扩展性。本文的研究成果为分类型或混合型数据的聚类算法中类个数的选择提供参考,进一步丰富了数据挖掘中聚类分析的研究。
其他文献
新型三缸单作用恒流量往复泵动力端采用特殊的凸轮传动机构取代传统往复泵的曲柄连杆机构,使柱塞产生等加速-等速-等减速组合运动规律,从而使得输出流量与压力无波动,大大提高了
公理模糊集(Axiomatic Fuzzy Sets,简称AFS)理论,是一种处理模糊信息的新语义方法,其本质是研究如何把蕴涵在训练样本、原始数据或数据库中的内在规律和模式转化到模糊集及其
本文旨在研究在网络成为人类交流沟通的一大主要工具的今天,实名制社交网站是如何影响人类的人际交往。人人网是中国当下比较流行和用户最多的实名制社交网站,有其研究的价值
数学概念是双基教学的核心内容,是基础知识的起点,逻辑思维的依据,是正确,合理,迅速运算的保证,如果学生能够正确理解完整地掌握数学概念,那么就是掌握数学知识的基础。相反,
在市场竞争日益激烈的条件下,多元化战略是企业寻求未来发展的一条重要途径。多元化战略是目前企业热衷的战略选择,尤其在大的集团化企业中的作用已明显超过专业化发展方式。
可燃气体作为一种高新能源,近年来在生产和生活中都得到了广泛的使用,但由于其具有易燃、易爆的特点,一旦空气中的浓度超过可燃气体的爆炸极限,遇到明火源就会发生燃烧爆炸事
【正】 各区、县地方税务局、各分局:现将国家税务总局《关于加强住房营业税征收管理有关问题的通知》(国税发[2006]74号)转发给你们,并就有关税收征管问题明确如下,请一并依
现代社会,我国的移动通信技术的迅猛发展,满足了人们对信息进行随时随地的沟通需求。同时因为快节奏的工作和生活,让我们没有太多时间亲自到金融机构办理电子商务与个人理财
Drought is one of the main natural disasters that cause economic loss in the basins of international rivers such as Nujiang and Lancang rivers. Based on the mon
随着国民经济的快速发展,广大人民生活水平和质量有了显著的提高,现阶段人民对食品安全和食品营养的消费理念呈现出多元化、健康化、差异化,消费上也更加倾向于原生态的动物