基于SimRank及密度的聚类算法

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:nbwdwby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据呈指数形式增长的时代,实际应用中的许多数据通常是被目标不明确地采集(采集与挖掘独立进行)且无规律地存储,这是导致大数据挖掘困难主要原因之一。聚类算法是处理大数据的一种有效方法,是机器学习与数据挖掘中的一个重要分支,获得了广泛的应用,例如:描绘数据的性质,了解不同数据对象间的相互关系,以及对数据信息进行分类等。所以,本论文设计几个新的聚类算法,为提高大数据挖掘效率提供技术支持。聚类算法是将大数据聚成多个类,使得类中数据之间的相似度高,并且不同类数据之间相似度低。目前的聚类分析算法主要包括层次聚类,谱聚类和基于密度的聚类。谱聚类算法的效果好坏在很大程度上取决于相似度矩阵的好坏,即,如何构造能够更好的描述数据之间相互关系的相似性矩阵是谱聚类算法的关键点。基于密度的聚类算法假设聚类结构可以通过样本分布的紧密程度来确定,是根据空间中数据对象分布的密度来聚类。也就是说,只要区域中数据对象的密度大于某个阈值,就将其划分到和它相近的簇中。密度聚类的关键在于核心对象的选择,以及对密度阀值的把控。针对这些发现点,本论文在以下两个方面展开研究:(1)设计一种基于SimRank得分的谱聚类算法(Spectral Clustering Algorithm Based on SimRank Score,简写SCSRS)。针对传统的图谱聚类算法在建立相似度矩阵时仅考虑数据点与点的距离而忽略了数据点之间隐含的内在联系,提出了一种基于SimRank的谱聚类算法。该算法融合相关的SimRank相似得分、图的分割、图的拉普拉斯矩阵、k-means等核心理论和技术提出有效的谱聚类分析方法。算法首先用无向图数据建立邻接矩阵,并得到基于SimRank的相似度矩阵。然后,根据相似度矩阵建立拉普拉斯矩阵表达式,对其进行归一化后,再进行谱分解。最后,对分解后得到的特征向量进行k-means聚类。在图的分析和识别等应用领域与现有算法进行比较检验该算法的效果。主要创新点:1)计算相似性矩阵时,该算法运用了基于SimRank相似性得分的方法,比传统的基于距离的方法(对高维数据计算距离将失效)更加有效。2)充分考虑数据之间隐含的内在联系,两个数据点之间的相似性不仅仅由它们的距离来决定的,而是由它们的邻居之间的相似程度来共同决定的,这一相似性度量具有更好的鲁棒性。3)将这个聚类方法用于图分析领域,即,利用新的谱聚类方法准确地确定描述图像特征的区域进行图像研究,并取得了很好的效果。(2)采用快速搜索和密度峰值方法构造一种基于稀疏学习的聚类算法(Sparse-Learning-based Clustering by Fast Search and Find of Density Peaks,简称为SL_CFSFDP)。快速搜索和密度峰值聚类(CFSFDP)是近年来提出的一种比较新颖的聚类算法。该算法具有计算复杂度低和聚类效果好等优点,但其截断距离d_c需要根据用户的经验来确定,并且数据集越小,其错误率越高。针对这些不足,本论文有效的应用稀疏学习模型快速搜索和密度峰值聚类,构造出SL-CFSFDP算法。与CFSFDP相比,SL-CFSFDP算法不需要人为来设定d_c,同时,SL-CFSFDP算法运用稀疏学习相关方法来确定每个数据点的邻居,以去除不相关数据的影响。该算法先通过综合局部密度和距离来自动确定聚类中心,然后再根据局部密度和距离来对数据点进行聚类。采用UCI标准数据集及人工数据集上的实验评估结果表明,SL-CFSFDP要优于DBSCAN和CFSFDP等算法。总之,本论文针对聚类算法目前存在的一些不足引进SimRank得分、谱聚类、密度峰值、截断距离以及稀疏学习等技术设计了两个新的聚类算法,实验表明,这些新设计的聚类算法在公开的大部分数据集上表现的性能比当前主流算法更优秀。在今后的工作中,将考虑在聚类分析算法框架中运用深度学习作为聚类算法的预处理,然后再运用到各类实际应用中。
其他文献
现实世界中大量工程问题和数值问题等都存在大量的决策变量,当决策变量超过1000维时,称之为大规模全局优化(Large Scale Global Optimization简称LSGO)问题,并且随着科技发展,越来越多的伴随着越来越多决策变量的LSGO问题需要解决。LSGO问题的难点在于“维度灾难”,维度的增加导致搜索空间成指数倍增长,导致传统进化算法在解决LSGO问题时失效。协同进化算法是有效处理L
伊敏地区位于大兴安岭北段西坡,古生代期间受古亚洲洋构造域的影响,中-新生代经历滨太平洋构造域和蒙古-鄂霍次克洋构造域的叠加改造,区内发育有一定规模的花岗质岩石。但由
在智能移动机器人方面,实现移动机器人的自主性是世界各国学者一直在努力的方向。在一个未知的环境中,移动机器人想要独立的完成某一作业任务,必须要知道周围的环境和自身在
本文以固定效应排序logit模型为例,研究面板排序选择模型的结构变化检验和估计。基于传统的固定效应排序logit模型,本文引入平滑转换函数来描述经济学中的结构变化过程,构造
随着云计算的不断发展,云存储已经成为云计算最广泛的应用之一。云存储在为广大用户带来方便的同时,也造成了数据所有权和管理权分离的问题。云存储安全受到业界广泛地关注,为了更好地解决此问题,可搜索加密的云存储服务机制及效率问题在近几年中得到了研究者的广泛研究和发展。本文针对目前可搜索加密的不精确问题进行了研究,实现了在语义方面的精准搜索以及效率的提高。目前的可搜索加密方案大多针对多用户,多关键字搜索等方
在神经系统中,不同模态的感觉信息之间可以发生相互影响,但是我们对之了解非常有限,这其中,尤其是对感觉皮层(如听、视皮层等)在这一复杂过程中作用的认识更为有限。本研究中我们采用多通道神经信号记录技术,在自由活动且完成感知觉分辨任务的大鼠听皮层上,通过记录神经元对感觉刺激(听、视以及视-听联合刺激)的反应,深入研究视觉信号对听皮层神经元反应的调制。首先研究在对听觉信息进行分辨的任务中,视觉信息如何调制
广义相对论自提出以来,虽然取得了极大的成功,但也存在着一些问题,比如宇宙早期的暴涨机制。因此为了解释早期宇宙暴涨,各种修改引力理论被提出,比如张量标量理论,EiBI引力理论,Rainbow引力等等。另外对于黑洞热力学的研究使我们认识到引力与热力学可能存在着深刻的关系。在这篇论文中,我们将主要讨论三个方面。首先,我们回顾了修改引力中的一个候选者:张量标量引力理论。在这一部分,张量标量引力理论的两个分
进化计算机视觉(Evolution Computer Vision,ECV)是一种结合进化计算和计算机视觉的新研究方法,代表了一个新的跨学科研究领域,其将分析方法和随机优化及启发式方法相结合;进化计算机视觉致力于设计有助于解决计算机视觉难题的软硬件解决方案。在人工智能的早期,人们过于相信智能的认知能力,低估了视觉感知的研究。当前,作为一个成果丰富的研究和应用技术领域,计算机视觉已采用了各式各样的方
芥子油苷是一种存在于十字花科植物中的重要次生代谢产物,广泛存在于模式植物拟南芥(Arabidopsis thaliana)和芸薹属蔬菜中。芥子油苷本身通常不具有显著的生物活性,在遭受外界生物胁迫,如动物的啃噬或病原菌的侵染及其他形式的机械损伤时,芥子油苷会在黑芥子酶的降解作用下发生一系列化学反应,将硫原子与葡萄糖之间的糖苷键断开,从而产生具有多种生物活性的的降解产物。某些芥子油苷的降解产物如异硫代
本研究的任务是分析促使印尼人到香港工作的因素,以及分析印尼女性在香港从事家庭佣工中所遭遇的问题。同时分析了印尼劳工与香港当地人在文化上、生活习惯上、宗教信仰上的