半监督选择性聚类集成研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:woyunwohun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的更新发展,人们步入了大数据时代。人们日常生活中随时随地都在产生大量的信息数据,如何在海量的信息中获得隐藏在其中的有价值的信息,成为一个新的研究热点。其中聚类分析就是一种很常见的数据挖掘方法。与一般的单个聚类算法不同,聚类集成通过设计一个共识函数将多个不同的聚类结果融合,能获得比单个聚类算法更好的聚类结果,但要是在集成成员生成过程中产生的聚类成员结构不同,怎样选择合适的聚类成员,将对最终的聚类结果至关重要。由此一些学者通过某种选择策略,从产生的聚类成员集中选用质量好差异性大的聚类成员用于聚类集成,从而获得较好的聚类结果。目前聚类集成和聚类集成选择技术的研究主要集中在无监督学习领域中,没有考虑到用户或者专家提供的先验知识。半监督聚类集成将少量带有标签的数据带入到聚类集成中,监督与指导集成过程,最终会获得更加优越的聚类结果,使得整个过程更具稳定性、准确性和鲁棒性。受到启发,本文尝试将选择聚类与半监督聚类结合,首先通过基于成员质量和差异度的成员选择方法选出一部分初始聚类成员,然后借鉴半监督聚类集成的关键思想,利用成对约束等先验知识,将半监督信息带入到选择聚类集成过程,选择出最终聚类成员集,设计了一种半监督选择聚类集成方法(Semi-supervised selective cluster ensemble,SSCES)。针对人们生活中产生的数据越来越呈现高维性的问题,本文分析了现有的降维算法,并结合主成分分析(Principal Componet Analysis,PCA)降维技术,提出了一种基于PCA降维技术的成对约束半监督聚类集成算法(Semi-supervised clustering ensemble with pairwise constraints based on PCA dimension reduction,SSCEDR)。考虑到PCA是一种无监督的降维方式,没有利用到数据中存在的一些有用信息,本文尝试在PCA主成分分析的目标函数中加入具有正负约束限制的距离函数,形成新的半监督降维算法(Semi-upervised dimension reduction,SSDR),然后对原始数据进行降维,结合半监督聚类集成,在降维后的空间中将先验知识代入到聚类集成过程,得到最终的聚类结果。并在多组数据集上进行实验,验证上述算法能够提升聚类质量,取得更好的聚类结果。
其他文献
随着计算机技术的快速发展,人们在努力使机器变得更加人性化,因此,本文研究如何让机器智能地生成有说服力的自然语言描述的问题,该描述既要传达产品信息,又要提供与用户需求相关的解释。这个问题可能会受益于当前大量关于端到端深度神经网络的研究工作。然而,深度神经网络的成功归功于海量训练数据的支撑,我们无法获取大规模的具有说服力的文本描述,因此,缺乏标记数据和主观判断对训练这样一个模型提出了严峻挑战。针对以上
国防工业、航空航天、汽车制造、半导体和微电子工业等领域发展迅速,超精密加工零件的数量和质量需求都急剧增长,尤其是对零件表面面形精度和粗糙度的要求与日俱增。相应地,
作为人脸识别、表情分析、人脸3D重构等重要任务的基础,人脸特征点定位课题受到了研究者的广泛关注并取得了巨大的进展,其中级联姿态回归算法在受控条件(例如,光照良好、无遮
在机器人领域中,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是机器人研究领域的热点与难点问题,引起了许多研究者的关注。本文在研究国内外SLAM算法的基础上,对SLAM算法进行了深入的分析和研究,并对算法中所存在的不足作出了一定改进,提高了机器人定位和地图构建的估计精度及执行效率。具体的研究内容如下:首先,阐述了SLAM问题的基本模型并对
益贫式增长问题的核心在于研究增长及分配的减贫机制,同时促使贫困群体参与增长过程并共享发展成果,其最终的立足点是减贫政策。本文从益贫式增长的内涵和测度方法出发,从全国和省域层面对2005-2016年城镇益贫式增长的现状及时空分异特征进行综合测评。从理论层面上探究了收入分配政策(初次分配、再分配)、区位政策、经济增长、地方投入产出和人力资源禀赋对益贫式增长影响的分析框架,并运用面板数据模型进行实证检验
本研究以科尔沁沙地为研究区域,榆树疏林为研究对象,采用多智能体思想,以NetLogo为平台,以内蒙古乌兰敖都试验站的野外观测数据作为模型准确性验证的依据,实现榆树空间格局形成过程以及其动态变化的模拟,探究榆树空间格局形成过程中风力、植被盖度、土壤含水量、竞争等影响条件对榆树疏林的影响。主要研究结果如下:(1)风力驱动是影响种子扩散的重要影响因素,种子扩散数量在各个方向上呈现先增加后减小的单峰分布的
时间序列数据的挖掘是一个重要且成熟的研究主题,解决了很多现实问题。多变量时间序列(MTS)在众多领域应用广泛,如何对MTS准确高效地进行聚类已经成为一个热门的研究课题。相
意识形态是能够反映一定阶级社会关系,以维护某一社会阶级利益为目的思想体系,其包括政治、经济、文化、法律、道德、哲学、宗教、艺术等。国家的安定,需要意识形态的统一,政党的统治稳定,更需要有稳定的意识形态做保障,稳定的意识形态也有利于为经济社会发展营造良好的社会氛围,为社会成员形成良好的社会心理打下坚实的基础。改革开放以来,随着中国和外国思想文化的交流,中国的意识形态受到了一些外在因素的影响,出现了一
视觉里程计(Visual Odometry,VO)是基于视觉的同时定位与地图构建(viusal Simultaneous Location and Mapping,vSLAM)系统中的一个极具挑战的开放性问题。其主要任务是依据视
专利是一种发明创造也是一种知识产权并且受到法律的保护,包含了大量的科技成果和创新技术。对已有专利中包含的知识资源进行深层次的挖掘和分析,是科技创新的前提。本文拟通过构建新能源汽车领域的专利知识图谱来实现对该领域专利知识的表示、分析以及挖掘,从而更加有效的分析专利之间的联系,优化专利的检索。知识图谱是通过符号的形式来描述物理世界中的概念及其概念之间的关系,是结构化的语义知识库,不仅能以更接近人类认知