基于近邻图分析的谱聚类算法的研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:nongfeng4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
谱聚类算法(Spectral clustering)是基于谱图理论的经典聚类算法之一,而属于K-way谱聚类算法的NJW(Ng-Jordan-Weiss)算法因其框架简单而广受关注。该算法可通过欧氏距离建立样本间的相似性度量矩阵W;虽然欧氏距离的度量方式简单,容易理解,可用于大多数据类型。但是,欧氏距离是基于每个独立的样本,样本间的关系都是直接获取,所建立的样本度量也是基于样本全局。样本之间的关联比较单一,不能充分描述样本间的局部特征,使建立的相似性特征描述不完整,不能完全反映样本之间的关系。除此之外,传统的K近邻算法中的K值都是通过多次实验获得的经验值,很难证明其为最佳值,所以容易陷入局部最优。为了解决以上问题,本文基于近邻图分析,对谱聚类算法进行研究,主要作了以下工作:第一,针对欧氏距离相似性度量方法的不足,提出一种基于K阈值的相似性度量的谱聚类算法;算法充分参考了各种样本区域的特性,利用K阈值的方式建立局部样本之间的联系,并在这些局部关联的基础上用最短路径建立全局连通图,然后以局部样本标准差作为高斯核的取值。该算法很好的克服了以欧氏距离建立联系时,对样本局部细节特征的忽视。第二,针对基于K阈值的相似性度量的谱聚类算法中K值的选取问题,提出一种基于自定义K值的聚类算法。在基于K阈值的相似性度量的谱聚类算法中,起始的K值选取来自于实验;为了避免人为主观性对实验结果的影响,该算法通过循环迭代的方式选取构建谱图的最佳K值,对于不同的样本集合,迭代循环次数也不同。我们将提出的方法与已存在的几种聚类算法进行比较,通过人工数据集和UCI数据集的实验结果可以得出,提出的新算法不但在离散的数据样本上有很好的聚类效果,还克服了几种对比实验对流行数据不敏感的缺点。
其他文献
近年来机器视觉在社会生活不同工程领域中得到广泛应用,而图像分割作为机器视觉的重要组成部分,对工程实际应用的精确性和可靠性有着决定性的影响。本文以提升图像分割的准确性为目的,通过学习研究图像显著目标分割算法,并以此为基础进行改进而提出了两种新的图像分割方法。1.针对现有自底向上的贝叶斯底层中层特征聚类(LMLC)和图模型流行排序(GMR)图像显著目标分割算法,在面对复杂场景图像时,存在背景错误突显的
文章利用2014年全国人口变动情况抽样调查数据,按层次递进的方式,分析当前我国育龄夫妇类型和生育状况,得出单独两孩政策目标人群和全面两孩政策的目标人群及年龄构成,利用分
山东天源热电厂现有YG240-9.8/540热电锅炉4台,并配有3台5×10~4kW发电机组。锅炉连续排污水经连续排污扩容器后,分离出蒸汽去除氧器,加热除氧水。其冷却水即连续排污扩容器
在我国,中高职衔接人才培养的价值追求可归纳为:战略性价值追求,完善现代职业教育体系;工具性价值追求,满足人力资源的需求;人本性价值追求,为了人的全面自由发展。目前我国
提高城市动画文化娱乐消费能力,必须充分考虑到城市居民人均可支配收入,从而促进居民对文化消费的需求提高城市文化消费水平。文章通过选取苏南四市城市居民人均可支配收入作
在简要描述燃油箱冲洗惰化工作过程的基础上,根据质量守恒方程,氧氮溶解逸出方程及气体通过孔口流动方程,建立了通用的多隔仓燃油箱数学模型,并给出了采用龙格库塔法求解的初
目的评价胱氨酸蛋白酶抑制剂C(Cystatin C)在心脏手术患者肾功能评估的应用价值。方法测定并统计心脏外科手术患者术前的Cystatin C、血清肌酐、手术后次晨的血清肌酐,并对部
中医有着千年的历史文化积淀,在漫长的诊疗实践活动中,最终形成了一套蕴藏中华民族文化、历史,具有独特诊病模式的医疗体系,在临床上发挥着重要的作用,而且不断地丰富和发展
目的探究高血压治疗药物处方分析及其监测。方法从某院2017年12月~2018年12月选取1 076张高血压治疗药物处方,统计用药数据,使用PASS进行相互作用审查。结果在高血压治疗药物
机器学习是当前大数据处理中的重要方法和手段,利用机器学习来处理图像分类是当前学者们研究的热点。在图像分类处理技术方面已经催生了许多成熟而有效的机器学习算法,其中K