论文部分内容阅读
在数据呈指数形式增长的时代,实际应用中的许多数据通常是被目标不明确地采集(采集与挖掘独立进行)且无规律地存储,这是导致大数据挖掘困难主要原因之一。聚类算法是处理大数据的一种有效方法,是机器学习与数据挖掘中的一个重要分支,获得了广泛的应用,例如:描绘数据的性质,了解不同数据对象间的相互关系,以及对数据信息进行分类等。所以,本论文设计几个新的聚类算法,为提高大数据挖掘效率提供技术支持。聚类算法是将大数据聚成多个类,使得类中数据之间的相似度高,并且不同类数据之间相似度低。目前的聚类分析算法主要包括层次聚类,谱聚类和基于密度的聚类。谱聚类算法的效果好坏在很大程度上取决于相似度矩阵的好坏,即,如何构造能够更好的描述数据之间相互关系的相似性矩阵是谱聚类算法的关键点。基于密度的聚类算法假设聚类结构可以通过样本分布的紧密程度来确定,是根据空间中数据对象分布的密度来聚类。也就是说,只要区域中数据对象的密度大于某个阈值,就将其划分到和它相近的簇中。密度聚类的关键在于核心对象的选择,以及对密度阀值的把控。针对这些发现点,本论文在以下两个方面展开研究:(1)设计一种基于SimRank得分的谱聚类算法(Spectral Clustering Algorithm Based on SimRank Score,简写SCSRS)。针对传统的图谱聚类算法在建立相似度矩阵时仅考虑数据点与点的距离而忽略了数据点之间隐含的内在联系,提出了一种基于SimRank的谱聚类算法。该算法融合相关的SimRank相似得分、图的分割、图的拉普拉斯矩阵、k-means等核心理论和技术提出有效的谱聚类分析方法。算法首先用无向图数据建立邻接矩阵,并得到基于SimRank的相似度矩阵。然后,根据相似度矩阵建立拉普拉斯矩阵表达式,对其进行归一化后,再进行谱分解。最后,对分解后得到的特征向量进行k-means聚类。在图的分析和识别等应用领域与现有算法进行比较检验该算法的效果。主要创新点:1)计算相似性矩阵时,该算法运用了基于SimRank相似性得分的方法,比传统的基于距离的方法(对高维数据计算距离将失效)更加有效。2)充分考虑数据之间隐含的内在联系,两个数据点之间的相似性不仅仅由它们的距离来决定的,而是由它们的邻居之间的相似程度来共同决定的,这一相似性度量具有更好的鲁棒性。3)将这个聚类方法用于图分析领域,即,利用新的谱聚类方法准确地确定描述图像特征的区域进行图像研究,并取得了很好的效果。(2)采用快速搜索和密度峰值方法构造一种基于稀疏学习的聚类算法(Sparse-Learning-based Clustering by Fast Search and Find of Density Peaks,简称为SL_CFSFDP)。快速搜索和密度峰值聚类(CFSFDP)是近年来提出的一种比较新颖的聚类算法。该算法具有计算复杂度低和聚类效果好等优点,但其截断距离d_c需要根据用户的经验来确定,并且数据集越小,其错误率越高。针对这些不足,本论文有效的应用稀疏学习模型快速搜索和密度峰值聚类,构造出SL-CFSFDP算法。与CFSFDP相比,SL-CFSFDP算法不需要人为来设定d_c,同时,SL-CFSFDP算法运用稀疏学习相关方法来确定每个数据点的邻居,以去除不相关数据的影响。该算法先通过综合局部密度和距离来自动确定聚类中心,然后再根据局部密度和距离来对数据点进行聚类。采用UCI标准数据集及人工数据集上的实验评估结果表明,SL-CFSFDP要优于DBSCAN和CFSFDP等算法。总之,本论文针对聚类算法目前存在的一些不足引进SimRank得分、谱聚类、密度峰值、截断距离以及稀疏学习等技术设计了两个新的聚类算法,实验表明,这些新设计的聚类算法在公开的大部分数据集上表现的性能比当前主流算法更优秀。在今后的工作中,将考虑在聚类分析算法框架中运用深度学习作为聚类算法的预处理,然后再运用到各类实际应用中。