半监督聚类集成理论与技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:long96169
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘和机器学习领域一种重要技术方法之一,在很多领域都有广泛的应用,尤其应用在对大数据等问题的处理和分析上。聚类根据一种给定的相似性度量方式,将所有数据对象划分为不同的簇,要求簇内相似度最大而簇间相似度最小在实际问题的解决中,无监督的聚类方法不能利用少量的先验知识,单一的聚类算法很难满足对结构和分布复杂多变的数据集合的处理。半监督聚类集成技术正好弥补了这方面的缺陷,充分利用半监督学习和集成学习技术,并将其应用到聚类分析中,可以有效的提高聚类的性能。然而由于半监督聚类集成研究刚刚兴起,其很多理论机理知识不是很成熟,理论方面的研究可以为半监督聚类集成技术的发展提供有力的支撑。半监督聚类集成技术充分的利用先验知识指导聚类过程,提高聚类的性能,同时利用集成学习的思想,将多个基聚类结果进行组合达到更优化的划分效果。受半监督学习和聚类集成等技术研究的启示,结合概率统计的知识,本文对半监督聚类集成的相关理论进行了数学分析和讨论。在对半监督聚类集成模型和参数进行相关假设的前提下,对其收敛性进行数学证明和分析;引入鲁棒半径的概念来表示鲁棒性程度的范围,对半监督聚类集成的鲁棒性进行分析。然后本文提出一种基于关联矩阵的统一类标签方法,对基聚类(划分)类标签进行统一对齐,将先验知识以约束对的形式加入到基于多数投票法的半监督聚类集成模型中。实验结果表明,先验知识可以提高基聚类和半监督聚类集成的性能,半监督聚类集成具有收敛性和鲁棒性等性能,改进的基于多数投票法的半监督聚类集成方法可以获得较好的聚类效果。半监督聚类集成技术,能够有效的利用先验知识指导聚类和集成过程,且通过融合具有一定差异性的基划分结果,可以有效的提高聚类的性能。本文基于统计学知识,证明了半监督聚类集成方法具有收敛性,同时分析了其鲁棒性性能,提出一种鲁棒性度量方法;提出了一种基于多数投票的半监督聚类集成模型。实验结果表明,随着差异性基划分成员数量的增加半监督聚类集成结果具有收敛性,且其鲁棒性性能也比较好;充分利用先验知识后,基于多数投票法的半监督聚类集成方法可以有效的提高聚类的性能。
其他文献
借助信息化与嵌入式系统的发展,企业向社会提供种类丰富的服务,这些服务需要建立在大量的嵌入式硬件平台和数目庞大的软件系统之上。在嵌入式系统的运行过程中存在各种侵非法、
虚拟现实技术(Virtual Reality,简称VR)是近些年来高速发展的新兴技术,是对人类有巨大影响的高新技术之一。目前,已被广泛的应用到各个领域,例如,军事、建筑、航天以及医疗和
随着当今信息技术的飞速发展,由此而引起的信息安全问题已经成为人们关注的热点问题,而数据库安全问题是信息安全的一个重要方面。数据库安全技术在社会的各个方面得到了广泛的
随着信息技术的迅速发展,大量的数据不断涌现,不可避免的会引发质量问题,数据清洗是提高数据质量的重要手段,而相似重复记录检测是数据清洗研究的关键技术,因此对相似重复记录检测
失效检测是分布式系统中实现高可用性的关键技术和组件之一,同时也是可靠性通信、失效恢复、动态重启、集群管理等功能的基础,在网格计算、集群管理、通信协议、物联网、云计
反汇编和反编译等逆向技术的不断发展,对二进制程序代码的分析和理解产生了重大影响,在一定程度上解决了系统漏洞查找、程序代码优化等诸多难题。但是逆向技术的快速发展同时
建设工程造价数据管理与分析系统,是为了实现对建筑行业的工程造价数据进行科学化、信息化管理与分析的目的所建构的一套适合于建筑行业管理模式的业务管理系统。其中的工程
尾矿库是维持矿山正常生产的必要设施,也是矿山企业的重大危险源。近年来,尾矿库溃坝事件常有发生,对周边人民生命财产安全造成难以估量的损失。长期以来,我国尾矿库安全监测
现今,语音训练系统在中风语音康复训练中的应用越来越重要。现在市场上所使用的语音康复训练系统的训练内容虽然多种多样,但是这些语音康复训练系统在设计完成之后,训练内容
无线传感器网络是一个大规模、无线、自组织、多跳、无基础设施支持的网络,能够在任何时间、任何地点迅速地构建起一个无线的通信网络,其中传感器节点不仅具有传感、收集数据的