基于模型的半监督子空间聚类算法分析

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:liongliong529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域中的关键技术之一,具有广泛的应用领域。随着科技的发展,高维数据聚类的应用越来越受到科学家们的关注。相对于传统聚类,高维数据聚类有更多的难点,由于高维数据集具有稀疏性,传统的聚类算法在处理这类数据时往往不能获得理想的效果。子空间聚类是实现高维数据聚类的有效途径,其思想是将搜索局限在相关维度中。在高维数据聚类中,不同聚簇经常与不同的维度集合相关联。这样的维度集合被称为子空间。在不同的子空间中寻找不同聚簇的问题被称为子空间聚类。这种聚类经常很富有挑战性,因为寻找子空间的过程和探测聚簇的过程经常是循环依赖的。现在的算法或者枚举所有可能的子空间或者基于一种局部假设。然而前者的时间复杂度很高,后者的局部假设在很多实际应用中并不正确。目前似乎除了这两种方法以外没有别的方法能够打破这种循环依赖问题。然而,本文中提出了引入额外的约束信息来打破这种循环依赖的方法。在本文中本文提出的基于模型的半监督子空间聚类算法(MSSC)充分地利用约束信息发现子空间并且提出新的最优化目标函数进而成功地打破了循环依赖问题。本文使用了大量的人工数据集和真实数据集验证了MSSC算法的准确性和可扩展性,实验结果表明即使使用很少量的半监督约束信息,MSSC算法的准确性就得到了很大的提升,并且远远高于其他的先进的子空间聚类算法。
其他文献
嵌入式系统的三个基本特征:资源紧凑有限、时间约束严格、成本极度敏感,并且嵌入式软件本身由于需要处理大量中断,许多嵌入式软件性能指标(系统吞吐量、任务处理能力、堆栈深
近年来,随着我国经济的迅猛发展,企业信息化进程不断推进,作为我国经济建设基石的中小企业的信息化建设越来越引起业界的重视。然而,由于中小企业普遍存在着经济实力弱、个性
人脸识别就是利用计算机技术,通过对人脸图像的分析,提取我们所需要的一些特征信息,用来做身份识别或者目标追踪。它主要有三个步骤:人脸检测、特征提取和人脸识别。人脸识别
目前,关于计算机网络系统特性的研究已经成为一个热点,其中对于竞争特性的研究尤其引人关注。关于星形网的运行机理早已介绍。竞争—冲突淘汰(C-CC)存取方式,作为星型局域网
Skyline查询处理是数据库技术领域的一个研究重点和热点,它在多目标决策、数据挖掘和可视化、用户偏好查询等方面有着广阔的应用。Skyline查询输出数据集中不被其它任意数据
在数据库中用已有的算法对那些有噪声的、不完整的海量数据进行分析、提取,从而可以得到潜在的、隐含在海量数据当中的、对数据操作有用的信息和知识过程就被称之为数据挖掘
随着Web2.0应用和SemanticWeb研究的成熟,语义电子病历信息的查询在医学科学和信息科学领域里发展成为热点问题。在研究中,学者们抽象出各种病历信息并将其存储为语义网的RDF三
随着Zigbee无线传感器网络的广泛应用,如何通过互联网对远程监控区域进行实时监测、控制和管理逐渐成为该领域的重要研究课题。论文深入学习、研究了Zigbee技术,在此基础上设计
凭借纵向分割的灵活特性,列存储已被证明比行存储更适合查询密集的分析型应用。作为分析型应用之一的OLAP,其基本操作可以被映射为一组比较复杂且运行时间长的查询语句。研究表
关联规则是数据挖掘技术当中一个非常重要的研究方向,他被广泛应用在现实生活中的各行各业。这个规则不仅可以给人们提供行业内数据规律认可,而且能够总结出海量数据之后的隐