高维高噪声数据聚类中关键问题研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ipgoalusb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步,高维高噪声数据聚类在数据挖掘研究领域中处于越来越重要的地位。聚类分析作为数据挖掘的一项主要研究课题,已引起广泛重视,同时产生了大量的理论和方法,并取得了丰硕的研究成果。尽管如此,聚类仍面临着许多问题,尤其随着数据挖掘技术的广泛应用,数据对象变得日趋复杂,大量的高维数据和高噪声数据不断出现,使得聚类研究面临着“维数灾难”和聚类结果对噪声敏感等问题的挑战。这要求改进现有聚类技术,同时提出新的聚类理论和方法以适应新的应用。本文对高维数据聚类以及健壮聚类等问题进行了较为深入的研究,主要内容包括以下几个方面:1.针对高维数据聚类任务中类簇的形状体积常存在差异,提出了一种基于高斯混合模型(Gaussian mixture model, GMM)的子空间聚类算法。高维数据中,样本类簇通常处于子空间,且不同类簇形状可能存在差异。许多现有高维数据聚类算法仅考虑前一个因素,而对不同类簇采用同一形状体积参数。针对此问题,扩展了现有GMM聚类过程,对每个类簇计算一个权矢量和一个局部方差,并利用它们分别鉴定类簇的主要特性,包括类簇的相关维度和形状体积,从而区分不同类簇。该问题通过在GMM目标函数中加入权矢量的负熵项及自适应系数得到求解。在仿真数据和真实数据上的实验结果表明了该算法在高维数据集应用中的优越性。2.针对高维数据聚类任务对噪声敏感的问题,提出了一种健壮的样本加权子空间聚类(Sample weighting subspace clustering, SWSC)算法。该算法基于样本加权思想,为每个样本分配一个反映离群程度的尺度参数,从而实现健壮聚类。各类簇所处的子空间继而由尺度加权的样本所确定。该算法首次将样本加权思想运用于硬划分类型的聚类算法。在二维仿真数据集、高维仿真数据集以及真实基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较强的健壮性。3.从特征选择角度,针对高维数据聚类任务中不同类簇常具有不同相关特征子集的特点,提出了一种基于约束混合模型(Constraint weighting mixture model, CWMM)的局部特征选择聚类算法。该算法基于现有局部特征选择混合模型,将类簇在任一维度上不相关特定分布改进为与其他类簇共同服从的同一分布,从而捕获类簇间的共性分布。类簇在任一维度上的分布由相关固有分布和同一分布加权和组合而成,两种分布的权重高低决定相应维度参与识别类簇的相关程度。算法通过对相应模型的似然函数引入各类维度权重参数的约束项实现参数估计。那些对类簇固有分布具有较大权重的维度,即组成相应类簇的局部特征子集。实验对比了不同算法在仿真数据和真实数据上的聚类性能,结果表明所提算法在类簇重叠现象的高维数据上表现出较现有子空间聚类算法更强的性能。4.为了提高迭代优化健壮聚类算法对噪声污染数据的聚类质量,提出了一种基于K-Means均匀效应的健壮聚类初始化算法。K-Means聚类结果中各子簇样本量具有均匀一致的特点,当使用超过实际聚类数进行聚类时,将出现稀疏子簇范围大,稠密子簇范围小,以及相邻稠密子簇范围相当等现象。算法利用超过实际聚类数的K-Means聚类,通过合并邻近小子簇、丢弃稀疏大子簇,自动获得聚类初始簇并有效地消除噪声,从而实现健壮的聚类初始化。理论和实验证明了该算法的有效性。5.针对严重噪声污染数据聚类问题,提出了一种基于自适应多测度Lq范数的健壮聚类算法。该算法利用Lq范数求解数据中心时对噪声不敏感的特性,对各类簇采用Lq范数距离测度,且对不同类簇设定相应参数qk(qk∈(1,2]),以适应类簇中不同噪声污染程度的建模需求。通过为各类簇建立一个有关参数qk的非线性变换,自适应求解参数qk,并获得健壮类簇中心。此外,算法基于聚类所得中心,给出了噪声检测过程。在仿真数据和真实数据上的实验结果均证实了所提算法在健壮中心估计和噪声检测等方面的优越性。
其他文献
急性阑尾炎是外科常见的急腹症,多采用手术治疗。笔者自2001年-2009年期间结合超声检查,血常规、尿常规化验结果,对明确本病诊断,应用妇炎康联合抗生素治疗急性阑尾炎共56例,其疗
绩效考核分配方案,历来都是医院分配改革的重点和难点,它关系到医院每一个人的切身利益,对护理人员的工作绩效进行科学合理的考核,是医院人力资源管理的重要职能。对护理工作
目的:探讨腹腔镜探查对于评估胆囊癌患者能否实施切除手术治疗的临床价值。方法:选取本院肝胆外科收治的胆囊癌患者197例,均具有实施手术切除的可能性,根据患者意愿分为腹腔
介绍了用于变压器自动检测仪的一种基于集成运算放大器的精密电压、电流幅值变换器,及其设计的关键技术.
作为一种重要的艺术表现形式,影视歌曲所包含的文学内涵非常的丰富,在对影视歌曲进行分析和研究时可以对这种音乐表现形式有一个更加客观的认知,大部分的影视歌曲包含有语言
目的:探讨血清蛋白电泳在不同类型肾脏疾病中各蛋白组分的变化规律及在发病中所起的作用。方法:应用美国海伦那琼脂糖凝胶电泳技术对140例不同类型肾脏疾病患者进行血清蛋白
非球面光学元件在各领域中得到越来越广泛的应用。近年来,光学元件加工技术发展迅速,面形加工精度可达纳米量级,但非球面的高精度通用化检测一直是一项具有挑战的课题。干涉
目的:探讨宫内节育器(IUD)带器妊娠的原因及干预方法。方法:分析收治的147例带器妊娠病例。结果:患者平均年龄29.88岁,IUD放置时间1~24年,孕周6~12w,IUD类型:金属环84例、Tcu环35例、
以2006-2016年上海证券交易所A股市场为研究对象,以学习效应为视角,将机构投资者的介入与企业的现金持有进行比对研究,导论出其中的关联度,以帮助A股上市公司以全面的眼光审视投
技术性贸易壁垒存在着维护国家安全、保障人类健康等正面效应,也有构成贸易障碍的负面效应。对于不同国家,它的效应又是不对称的。《TBT协议》对技术性贸易壁垒的正负效应起