高维数据子空间聚类融合算法研究

来源 :深圳大学 | 被引量 : 1次 | 上传用户:pigdun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是模式识别、机器学习等研究领域中的一个备受关注的课题,在许多领域发挥着至关重要的作用,如信息检索与分类、市场营销以及互联网等。在面临高维空间和大数据量时,由于距离度量方法的限制,传统的聚类分析方法在超高维数据上往往不能得到很好的效果。近几年,聚类融合方法开始获得越来越多的关注,它的主要思想是将不同角度的聚类分析结果整合成一个统一的类别结构,以得到一个更鲁棒、更稳定、更准确的最终分类结果。本文对高维数据的聚类融合方法进行深度探讨和研究,从融合算法和高维数据子空间划分方法两个方面开展工作。主要工作如下:1.现有的大部分融合算法没有考虑基聚类结果的有效性,将他们平等对待,其精度易受低质量基聚类结果的影响。部分聚类融合算法虽然考虑加权策略,但仍然忽略了性能糟糕的基聚类结果对最终结果的负面影响。针对这个问题,本文提出了一种基于新的加权策略的聚类融合算法。其中,我们提出了一种新的基聚类结果有效性的评价方法。该方法基于每一个基聚类结果与整体结果的最优匹配得分来衡量其有效性,并根据其有效性赋予相应的权重。最优匹配得分的设计充分考虑基聚类结果中的集群信息,不仅包含了该基聚类结果中与整体划分在同一个集群中的样本匹配度,还包括划分在不同集群的样本匹配度。随后,算法进一步调整对融合分析贡献为负的基聚类结果的权重,从而得到最终权值向量。最后,根据基聚类结果及其权重构建局部加权的CA共生矩阵(co-association matrix)以分析集成之后的类别结构。2.具有稀疏性、局部相关性以及噪声等特点的高维数据对传统的聚类分析算法提出了巨大的挑战。而且高维数据中的集群通常存在于不同的子空间中,基于此,本文提出了新的高维数据子空间聚类融合算法。特别地,本文引入谱特征选择思想,采用基于竞争学习的聚类算法将高维数据的特征划分成不同的特征集群,使同一集群中的特征包含给定数据集的相似结构信息。然后以特征集群作为子空间,在每个子空间上单独执行聚类算法获得多个基聚类结果,最终采用前述所提出的加权融合算法生成最终的聚类结果。实验结果表明,本文所提出的算法在大部分数据集上得到较好的结果。
其他文献
利用表面共价偶合反应“自下而上”制备的共价有机纳米结构具有较高的热稳定性及较好的电子传输能力,在分子电子学、分子纳米传感器件等领域具有极大的应用前景。这些有机纳
丝状真菌Podospora anserina(P.anserina)中含有非常多与木质纤维素降解相关的蛋白酶类,在生物能源转化方面具有重要意义,木质纤维素是地球上最为丰富的可再生资源,在生物燃料
金属团簇配合物在发现之初由于具有独特的金属键而受到关注。目前金属团簇配合物研究趋向高核化与功能化。高核金属团簇配合物分子尺寸可以达到纳米级,成为具有确定组成及结
本文在查阅已有织构刀具文献基础上,提出了原位成型方法制备不同尺寸微织构陶瓷刀具,通过干车削45号钢和40Cr研究刀具的车削性能和寿命,与仿真结果进行对比,研究原位成型不同
纳米阵列材料具有整齐的结构和较高的比表面积,在光学吸收和载流子定向迁移方面具有独特的优势。为进一步提高TiO2纳米棒阵列的光电催化性能,氧空位和二维纳米片协同提高光生
化纤行业是我国“十一五”规划期间重点支持的行业,而粘胶短纤维又是化纤行业重点发展的种类之一。粘胶短纤维是化纤行业内在国际上有较优势的品种,同时也是比较稀缺的纺织材
药物递送系统(如胶束、纳米颗粒、聚合物和脂质体)可以解决药物使用过程中存在的水溶性差、半衰期短、生物相容性低、排泄迅速及靶向性差等副作用,因此被广泛研究并应用于临床
随着人类社会的发展,人口数量快速增长,工业发展和技术的进步的同时给淡水资源的需求量带来了巨大的压力。与此同时,人类生产活动所产生的各类污染物对自然水体干扰超过了环
随着社会的不断进步与发展,各个国家的人员流动性也逐渐加快,在此前提下,新型冠状病毒便开始以飞快的速度给人类带来不幸。从2020年1月27日开始,直至现今,防控新型冠状病毒的
由于设备的限制,采集到的图像或者视频资源的分辨率可能不能达到人们的要求,而直接使用更高分辨率的设备会大大地增加成本。如果利用软件方法低分辨率视频增强成高分辨率视频