簇心自确认的聚类算法及其在文本聚类中的应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户：fuji2009

【摘要】

：

【作者】

：

陈胜发

【出处】

：

安徽大学

【发表日期】

：

2020年07期

【关键词】

：

文本聚类 Canopy算法 K-medoids算法 DWC_K-medoids算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在日常生活中我们所接触的许多信息都是以文本存储的形式进行传播的,如博客、微博、网页等。由于大数据时代的到来,让Internet上的文本数据量呈几何指数递增。这些文本数据中绝大部分都是以非结构化的形式存储的,但它们却包含着很多有用的潜在信息。如何从这些文本数据中迅速并高效的获取有用的潜在信息,就需要使用数据挖掘技术。聚类是指通过某种规则来发现数据集中的潜在分组,且这些分组中的数据对象拥有较高的相似度。可以说聚类是数据挖掘的重要技术手段,也是一种从数据集中获取潜在信息的无监督方法,目前在很多领域中都有使用,包括异常检测、人工智能和计算机视觉等。而作为聚类分析的重要组成部分——文本聚类,己经能够使用多种聚类方法。K-medoids作为一种采用启发式的划分方法,由于其实现简单、容易理解且受异常值的影响较小,目前已经应用在很多实际应用中并取得较好的效果。不过传统的K-medoids算法具有一些局限性,比如初始簇心的随机选取会影响聚类结果。本文的主要研究内容为:（1）针对密度峰值聚类算法（DPC）的三个缺陷——计算复杂度大、依赖截断间隔(9₍（8）和需要人工决策簇心,提出了基于残差和密度网格的簇心自确认聚类算法（REDGSC）。该算法先利用网格对象替换数据对象,然后计算网格对象的距离值和密度值,最后采用残差分析自动决策出簇心。人工数据集和UCI真实数据集的实验结果证明,该算法能够较好地选取初始簇心和确定簇心数量,且聚类效果比DPC算法更好。（2）针对K-medoids算法的聚类结果随K值和初始簇心改变而变化的问题,提出了基于密度权重Canopy的改进K-medoids算法（DWC_K-medoids）。该算法先计算每个样本对象的密度,选择密度最大的作为首个簇心,然后移除属于该簇心的所有样本对象,最后根据每个样本对象的权重,选择出下一个簇心,直到数据集为空。UCI真实数据集和人工数据集的实验结果表明,该算法能够较好地确定类簇数和选择合理的初始簇心,并能较好地提高聚类算法的精度和稳定性。（3）针对传统文本聚类忽略特征词之间的语义关系和数据高维的问题,提出了一种结合DWC_K-medoids算法和频繁词集的文本聚类方法（DCCFIDWCK）。该方法先利用特征选择来过滤掉多余的特征项;然后从中挖掘出所需要的频繁词集;接着利用频繁词集来创建文本表示模型,再采用欧式距离来计算相似度;最后利用DWC_K-medoids算法进行聚类操作,并对聚类结果进行主题描述。实验结果验证该算法在文本聚类上可以得到较好的聚类效果。

其他文献

金属元素掺杂二氧化锡纳米材料的可控制备及其气体传感性能

时代不断进步,人们的健康和环保意识也日益增强,面对有毒有害气体带来的种种问题,实时监测有毒有害气体变得越来越重要,所以气体传感器应运而生。目前,根据检测方式的差异,气

学位

气体传感器金属氧化物纳米材料金属元素掺杂二氧化锡

数字引发的空间注意转移方向与空间观点采择的关系

2003年Fisher使用了 go/no-go范式探索数字与空间之间的关系。实验结果认为小数能引发左侧的空间注意转移,大数引发右侧的空间转移,并将该效应称为AttentionalSNARC(Att-SNAR

学位

Attentional SNARC效应SNARC效应空间观点采择反应方式

从信息安全三性看我国信息安全法律保护

随着信息网络技术的不断发展,信息已然成为人类社会的一项重要资源,随之而来的则是各类信息安全事件的爆发。信息安全关乎个人权利、企业发展和国家利益,对信息安全的保护不

学位

信息安全三性法律保护建议

泡在火山泥浆里

“0rakel Korako（奥拉基科拉克）可能拥有新西兰最好的温泉”。0rakel Korako，与它所在的罗托鲁阿这块土地一样，拥有丰富的地热资源和火山泥浆。在这里，但凡有水便云烟氤氲，且随雾气

期刊

泥浆火山地热资源新西兰温泉

“马太效应”理论在中职听障生信息技术课程教学中的实践反思

笔者所工作的单位是一所集聋生、盲生教育康复为一体的特殊学校。在实际教学中,我经常发现很多学生进入职业中专课程学习,随着时间的推移,出现两极分化现象,即'学得好的

期刊

马太效应中职听障生信息技术实践反思

船舶电力管理与机舱监控综合一体的运用

介绍了通过计算机网络技术将船舶电力管理系统与机舱监控系统综合一体的运用,分析了该系统的运行可靠性,并提示了设计时应注意的问题.

期刊

监控机舱船舶计算机网络技术电力管理系统运行可靠性系统综合

甜蜜之地TOT6——来吧，一起去三亚“将错就错”

当电影《非诚勿扰2》中葛优对舒淇说出那句：“婚姻怎么选都是错的，长久的婚姻就是将错就错……一辈子很短，我愿意和你将错就错!”时，我相信打动了荧幕前的很多人。

期刊

三亚非诚勿扰婚姻

浅谈某矿地质特征及成矿规律

矿产资源是确保国民经济可持性发展的重要物质基础,其中依靠锰矿资源所生产的锰金属是一种重要的战略物质。在生产实践找矿中应尽可能采用新技术、新方法,降低探矿成本,加快

期刊

锰矿地质概况特征前景

环介导等温扩增技术在鸭源成分检测中的研究

为了建立肉产品中鸭源成分的现场快速检测技术,根据动物种间特异性的原则,筛选出一对品种特异的PCR引物,在此引物扩增片段的基础上,设计了环介导等温扩增(LAMP)引物序列,能特

期刊

牛、羊肉制品等温扩增技术环介导等温扩增技术可视化检测

1,3—二丁醇的致酮症作用及对大鼠肝脏微粒体NDMA脱甲基作用和其...

<正> 1,3-二丁醇(1,3-butanediol BD)做为食物添加剂也可做为化学合成的食物来供应热量。由于其可减轻乙醇戒瘾症状和防止实验动物大脑皮质缺血造成的损伤,有人曾建议将其用

期刊

13-二丁醇酮症氧化酶活性肝脏NDMA

簇心自确认的聚类算法及其在文本聚类中的应用

与本文相关的学术论文