基于信息熵的高维分类型数据子空间聚类算法研究

来源 :汕头大学 | 被引量 : 1次 | 上传用户:zyyafeng621214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大规模数据存储技术、信息技术和网络技术的发展,越来越多的人正陷入数据泛滥、知识匮乏的困境中。为满足日益增长的信息需求,促使数据挖掘技术广泛地应用于各行各业。聚类分析具有自动对数据进行有效划分的特性,已经成为数据挖掘技术的主要工具之一。现有的聚类算法处理低维数据有良好的效果,同时高维数值型数据的聚类分析也取得了一定的成就。然而,由于此前对高维分类型数据的研究没有引起足够的重视,以及分类型数据的特殊性,使得现有聚类算法无法满足处理分类型数据的要求。对于高维分类型数据聚类问题,由于其样本数据在高维空间中分布的稀疏性以及相异度(或相似度)度量的局限性,使得传统的聚类算法往往得不到理想的效果。针对上述问题,提出了一个新的高维分类型数据聚类算法——基于信息熵的高维分类型数据子空间聚类算法(Entropy-based Algorithm for Subspace Clustering with High Dimensional Categorical Datasets,ESCHCD),该算法综合考虑对应子空间和噪声子空间(不相关特征维)的维度信息熵,设计了一个高效、无监督的子空间搜索方法来对高维数据进行有效降维,同时提出了基于整体数据平均信息熵的全局优化方法对聚类结果进行迭代寻优。人工数据和真实数据的实验结果表明,与其他分类型数据聚类算法相比,该算法具有很好的聚类效果和扩展性。
其他文献
数据挖掘在众多领域中都发挥着不可替代的作用,一直是各国学者研究的热点。分类是数据挖掘的一种重要的手段。I D 3算法是提出最早,最经典的一种决策树分类方法。I D3在选择
随着科学技术的飞速发展,传感器网络、无线射频识别、隐私保护等技术得到了广泛的研究与应用,随之而来也产生了大量的不确定数据。以前人们总是试图使用处理确定数据的方法来
云计算正在成为IT业的一种发展趋势,而安全技术是当前云计算研究与应用过程中的关键内容之一。云计算的出现对传统的信息安全领域提出了巨大的挑战。本文通过调研云计算的研
近年来,集中供热发展迅速,供热系统不断扩大,在满足热用户供热需求的同时,如何有效地控制和管理整个供热网络,使资源得到合理利用,成为供热控制系统所必须解决的问题。本文通
随着社会的不断发展,Web管理信息系统的需求与日俱增。采用传统的手工编码方式开发Web管理信息系统时,经常会出现大量的重复编码工作,而长时间的重复性劳动降低了软件开发人
许多大规模的分布式系统都依赖于协调服务,分布式协调服务往往需要复制数据到不同的机器上来容错以满足活性需求,同时维护数据副本之间的一致性来保证安全性。在不可靠的分布
在科技日新月异的今天,互联网信息技术的发展也更加迅猛,网络对社会的生产和人们的工作、学习、生活和生存模式、思维模式产生着越来越大的影响。尤其随着WEB2.0时代的悄然走
近年来,随着现代化生产的发展,机械设备的安全性和可靠性问题越来越突出,设备中可能出现的小故障会造成整个系统设备的瘫痪,为了提高设备的安全可靠性、降低设备强迫停运、降低维修费用、延长设备的使用寿命等,关于机械设备的故障诊断技术越来越受到重视。机械的故障诊断技术是随着现代化大生产工业的发展而发展起来的一项机械设备诊断技术,是大型机械设备安全可靠运行的关键技术之一,也是各种自动化系统及一般机械系统的效率
三维物体跟踪在工业自动化、虚拟现实和增强现实中有着重要应用。本文从刚体三维实时跟踪和三维手势实时跟踪两个角度,分别进行了研究。汽车流水线上零件的识别和跟踪是本文
随着公交车载电视媒体这一新兴传媒技术的不断发展,其良好的社会公益性和巨大的市场价值也日益受到各地区城市公交系统的关注与重视。鉴于传统的电视信号技术设备昂贵,运营成