数据挖掘中的谱聚类算法研究

被引量 : 0次 | 上传用户：zemo283167

【摘要】

：

聚类分析是目前国际数据挖掘和机器学习领域中的一个相当活跃的研究热点,是人们认识和探索事物之间内在联系的有效手段。谱聚类算法作为一种新型的聚类分析的算法,与传统聚类

【作者】

：

孙玉侠

【发表日期】

：

2010年期

【关键词】

：

数据挖掘谱聚类信息熵 EBSC

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是目前国际数据挖掘和机器学习领域中的一个相当活跃的研究热点,是人们认识和探索事物之间内在联系的有效手段。谱聚类算法作为一种新型的聚类分析的算法,与传统聚类方法相比,谱聚类具有明显的优势,该方法不仅思想简单,易于实现,不易陷入局部最优解,而且具有识别非凸分布的聚类的能力,能够对任意形状的样本空间进行聚类,非常适合于许多实际应用问题。传统的谱聚类算法首先定义数据点间的相似性度量,基于该相似性度量,构造数据点集的相似度矩阵W,求出拉普拉斯矩阵L,接着计算出L的特征值和特征向量,最后选择一个或多个特征向量就可以对不同的数据点进行聚类。其中,构建相似度矩阵W时,相似函数使用的是高斯核函数,尺度参数σ-是手动设定的,这给该算法带来了一定的局限性。设计出无需手动输入尺度参数的谱聚类算法的实现方法,具有很重要的理论和现实意义,它不仅有助于研究人员对数据挖掘领域中的谱聚类算法的深入研究,还有助于普通工程技术人员利用谱聚类算法解决现实世界中的实际问题。本文详细分析了谱聚类算法的有关理论和方法,谱聚类生效的原因和优势,并指出了目前谱聚类算法存在的问题,然后介绍了NJW谱聚类算法的理论基础和构造方法,最后做了以下两个主要的工作。首先,详细分析了谱聚类算法的有关理论和方法,通过对经典的NJW谱聚类算法的深入研究,针对NJW算法中存在的手动输入尺度参数σ的问题做了相应改进,研究目标是通过对NJW算法进行深入分析,设计出能够自动优化尺度参数σ-值的一种方法,从而避免了手动输入尺度参数σ值带来的聚类结果不稳定的问题。算法代码在matlab 7.0平台上实现,通过在UCI标准数据集上对比分析k-means聚类、NJW谱聚类和EBSC谱聚类的实验结果,证明了EBSC算法在聚类准确性上优于前两种算法。其次,本文对谱聚类应用于烟草行业中的烟叶品质划分进行了探讨。目前在烟草行业已经运用了很多数据挖掘技术和计算智能的方法来解决问题,都取得了一定的成果。但是在聚类分析方面仍是利用传统的聚类方法进行聚类,如基于中心的聚类算法(例如最经典的k-means算法),在紧凑的超球形分布的数据集合上有较好的聚类效果,但却并不适合任意形状的聚类,而且此类算法是利用迭代最优化方法来寻找最优解,容易陷入局部最优解,因而此类算法不能保证收敛到全局最优解。而谱聚类由于其能发现任意形状簇的能力和收敛于全局最优解的性能,对烟叶品质的划分提供了一个新思路。因此本文将EBSC谱聚类用于烟叶品质划分中,通过对烟叶的聚类,对烟叶的采购具有一定的指导意义,同时在设计卷烟配方时,当需要的某一等级原料不足或缺乏时,可根据烟叶品质的相似性,从相同的类簇中寻找相近的烟叶,对烟叶的替代也可提供一定的帮助。实验结果表明,EBSC谱聚类在烟叶品质划分中确实有一定的可行性。最后提出了以后的工作和展望,对谱聚类的进一步发展提出了自己的看法。

其他文献

血液制品中非正常血液报废原因分析

目的分析非正常血液报废原因,探讨其预防措施,以最大限度地避免不合格血液的采集,并有效地利用血液资源,以减少血液报废。方法对常州市2008~2012年非正常血液报废产生的因素

期刊

血液报废脂肪血纤维蛋白

教师课堂引导语的使用方法例析

<正>新课程改革要求教师转变自己的角色,从过去仅作为知识传授者这一核心角色中解放出来,而成为学生学习的促进者,即成为学生学习的激发者、辅导者、各种能力和积极个性的培

期刊

引导语激发学生引导学生学生阅读

高架桥梁地震碰撞分析及控制

强烈地震作用下,高架桥梁相邻桥跨之间由于存在动力特性的差异,或者受到非一致地震动作用的影响,容易遭受碰撞破坏。强烈地震作用下高架桥梁碰撞过程中存在复杂的材料非线性

学位

高架桥梁碰撞LS-DYNA显式积分MR阻尼器半主动控制

混合痔的治疗近况

期刊

混合痔有效率治愈率外剥内扎术吻合器痔环切术肛门狭窄治疗近况

中等职业学校实训教师教学反思能力现状研究

技能型人才紧缺的现状成为制约我国经济发展的瓶颈,而承担着培养技能型人才任务的中等职业学校则发展缓慢,不能适应当前我国经济社会发展的需求。国家从2005年以来连续三年实

学位

中等职业学校实训教师教学反思教学反思能力

经皮椎弓根钉固定术治疗椎体骨折置钉准确度分析

目的：分析经皮椎弓根钉固定术治疗椎体骨折的置钉准确度。方法：回顾性调查本院133例经皮椎弓根钉固定术患者的临床资料，根据评分表统计所有置入的椎弓根钉位置，从而分析经皮椎弓

期刊

椎体骨折胸腰段骨折椎弓根钉可靠性

四妙君逸软膏换药用于肛肠病术后促进创面愈合的实验研究

目的：通过实验性大鼠创伤缺损模型,探讨四妙君逸软膏促进大鼠创面愈合的作用及机制。方法：将60只大鼠随机分为六组,每组10只。制成大鼠创伤缺损模型后,分成空白基质组、重组人

学位

四妙君逸软膏促进创面愈合蛋白含量EGFR

澳洲指橘与粗柠檬体细胞杂种倍性FCM分析及其花粉活力检测

利用流式细胞仪对5株澳洲指橘(Microcitrus papuana Swingle,2n=2x=18)与粗柠檬(Citrus jambhiri Osbeck,2n=2x=18)属间体细胞杂种进行倍性分析,以已知倍性的二倍体粗柠檬植

期刊

柑橘澳洲指橘体细胞杂种流式细胞术倍性分析花粉活力

新时期教师职业道德的内涵与重建

本文从教师职业道德实践中师德结构的缺失出发,分析了新时期教师职业道德的内涵及重建途径。

期刊

教师师德内涵重建

沈醉刺杀李宗仁和毛人凤

<正>知情人都清楚,国民党的军统和中统一直不和,明争暗斗,水火不容。但军统昆明工作站站长沈醉和我这个中统湖南组组长既是老乡又是同学,关系甚好,交情极深,我们两人

期刊

毛人凤李宗仁

数据挖掘中的谱聚类算法研究

与本文相关的学术论文