高维数据上的聚类方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zhangyi202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的飞速发展、数据集规模的不断膨胀,如何有效地分析这些海量数据并从中提取有用的信息成为研究的热点和难点。聚类分析,作为一种无监督的机器学习方法越来越受到人们重视并得到了快速的发展,已经被广泛应用于生物信息学、互联网技术和图像分析等重要领域。一般的聚类算法在低维数据上能取得较好的结果,而在处理高维数据时会发生“维数灾难”。随着数据维度的增加,数据变得稀疏,样本之间的距离差距不再明显,同时噪声特征和冗余特征也随之增多,这些因素都可能导致聚类算法的有效性大大降低。因此,针对高维数据的聚类算法研究已经成为机器学习领域研究的难点与重点。同时,很多聚类算法对数据有很多约束条件,如限制簇的数目以及形状等等,而这些限制在实际问题中往往不能得到满足,所以如何设计有效的“无参”的聚类算法也非常重要。本文以高维数据上的聚类方法研究为主线,结合集成技术、Boosting技术等,对高维数据的聚类问题展开深入研究,提出了一些新的聚类算法。全文的主要贡献包括:(1)集成聚类能够综合利用多个聚类结果提高聚类结果的稳定性和准确性近年来大量的集成聚类算法被提出,然而其中绝大部分算法将每个基聚类、每个样本或每个簇平等地对待。一些算法尝试在集成过程中使用簇或者基聚类的权重,然而还没有相关的研究工作在集成过程中更细粒度地考虑样本的权重。为了解决这一问题,本文提出样本加权的集成聚类算法(Weighted-Object Ensemble Clustering, WOEC)。WOEC首先通过共联矩阵去评估每个样本难划分的程度,并为样本分配相应的权重。本文提出三种集成聚类方法来利用样本的权重,这三种方法都把集成聚类问题转化为图的分割问题。大量实验证明WOEC算法的优越性以及对参数的鲁棒性。(2)Mean Shift(均值偏移算法)是一种“无参”的聚类方法,它不需要指定簇的数目和形状。它为每个点做概率密度估计,并不断沿着邻域内的概率密度增加最大的方向移动直至收敛。收敛到同一个模的所有样本点被划分为同一类。运行时,由于高维数据的稀疏性以及噪音特征的存在,Mean Shift的有效性大大降低。为解决这一问题,本文提出一种加权的自适应均值偏移聚类算法(A Weighted Adaptive Mean Shift ClusteringAlgorithm, WAMS)。首先,WAMS分析每个样本点所在的子空间信息,并将这些信息应用到Mean Shift算法中,从而避免在原始空间里计算距离。WAMS能够有效地处理高维数据,并同时保持了Mean Shift的“无参”特性。利用随机采样技术,可以加快WAMS的运行速度,而不会牺牲WAMS的准确性。本文在大量人工和真实数据集上证明了WAMS算法的有效性。(3)Mean Shift算法的另一个缺点是对参数(带宽)的选择敏感,而且不能处理一簇多模的情况。DBSCAN是另一种流行的基于密度的聚类算法,它也对参数敏感且容易合并有交集的簇。为了克服这些缺点,本文提出一种增强的均值偏移聚类算法(BoostedMean Shift Clustering, BMSC)。BMSC通过一个网格划分原始数据并局部地在网格的每个单元执行Mean Shift算法,这样每个单元可以提供一组中间过程的模(iModes)。本文提出一种模-增强的技术以迭代地选择稠密区域的样本,而DBSCAN被用来划分已得的所有iModes。计算复杂度分析说明了BMSC有处理大规模数据的潜力,实验也证明了BMSC算法的有效性和鲁棒性。
其他文献
颜色词除表示其本身的概念外,在不同的文化中还包含着丰富的内涵意义。由于不同民族的风俗习惯、思维方式、宗教信仰、民族心理等方面的差异,这些词汇能够产生不同的联想意义
目的探讨产后抑郁症的护理具体情况,旨在找出最科学有效的抑郁症患者临床护理方法,为产后抑郁症患者临床有效治疗和护理提供重要依据。方法选取我院收治的产后抑郁症患者65例
目的和背景实验研究大肠癌鸡胚移植模型中,龙葵与VEGF抗体表达以及两者共同对大肠癌血管生成的影响。比较龙葵与VEGF抗体作用在鸡胚绒毛尿囊膜上,人大肠肿瘤新生血管的面积及
随着全球气候逐渐变暖,强降雨现象出现得会愈加频繁,从而使得防洪防灾在城市的建设和规划上显得极为重要。城市及其周边区域的水文地理环境随着人类的活动发生着显著的改变,如地
同城化,作为一种新的城市发展理念,从提出到普及,不过短短十年时间。以中心城市的优势资源,发挥其对周边城市的辐射效应形成区域发展优势,是同城化发展的核心内涵。伴随着区域一体
自上个世纪八十年代以来,语言磨蚀研究越来越为国内外研究者所重视。其中,词汇磨蚀的研究特别是外语词汇磨蚀的研究成为语言磨蚀研究的热门课题之一。目前,研究者的焦点主要集中
软骨由于无血管、淋巴、神经等特殊的生理学特点,自身修复能力有限,直径大于4mm的缺损一般不能自行修复,软骨缺损一直是临床尚未解决的难题。组织工程技术的出现为这一问题的解
研究背景氧化应激(oxidative stress)是心肌缺血/再灌注(MI/R)损伤的中心环节,MI/R过程中产生大量活性氧族(ROS)可直接或间接影响心脏功能,促使心肌细胞凋亡和坏死。线粒体既是内源性
随着社会主义现代化建设的不断发展,城市化进程的不断加快,社区建设成为了社会主义现代化进程的必然要求,而社区党支部在社区建设中起领导核心作用,加强社区党支部建设有利于巩固
目的探讨妊娠期糖尿病酮症酸中毒相关治疗和护理。方法对我院1例高龄孕妇糖尿病酮症酸中毒的临床资料的分析:该患者因腹痛入院,给予对症处理后腹痛缓解但胸闷气喘加重,不能平