基于密度峰值优化的K-means文本聚类算法研究

来源 :武汉理工大学 | 被引量 : 4次 | 上传用户:sony360
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日常生活中传播的绝大多数信息如书籍、杂志、网页等都是以文本的形式存在的。随着互联网的普及,信息传播速度不断加快,文本数据也呈现爆炸式增长。这些文本数据中蕴藏着很多有用的信息。因而,以文本数据为研究对象的文本挖掘技术受到越来越多的关注。作为文本挖掘技术的一个重要分支,文本聚类技术也一直备受关注。本文阐述了文本聚类的研究背景和意义、研究现状及存在的问题,详细介绍了文本聚类过程中涉及到的理论和技术,包括文本预处理技术、文本表示模型的构建方法、文本相似性度量方法、各类聚类算法及聚类评价标准等。在对聚类算法进行深入研究之后对算法进行改进,提高了文本聚类的效果。本文的研究内容主要包括以下几点:(1)提出了一种基于K近邻优化的密度峰值发现聚类算法。针对密度峰值发现聚类算法(Clustering by fast search and find of density peaks,DPC)在计算样本对象的局部密度时存在的主观性,利用K近邻信息对局部密度进行重新定义,并提出了一种K近邻优化的密度峰值发现聚类算法(Clustering by fast search and find of density peaks based on K-nearest neighbor,KDPC)。该算法弥补了DPC算法在定义局部密度时造成的缺陷。在人工虚拟数据集和真实数据集上的实验结果表明:该算法能够找到数据集的类簇中心,并确定其类簇的个数,且准确率高于DPC算法的准确率。(2)提出了一种基于密度峰值优化的K-means聚类算法。针对K-means算法在初始化时存在的缺陷,结合提出的KDPC算法,提出了基于密度峰值优化的K-means聚类算法(K-means based on improved density peaks,KDP-means)。该算法利用KDPC算法的思想来确定数据集的类簇中心和类簇个数,弥补了K-means算法在聚类之前需要给定类簇个数和初始聚类中心这一缺陷。在UCI数据集上的实验结果表明,该算法能够在一定程度上减少K-means算法的迭代次数和迭代时间,提高K-means算法的稳定性和准确率。(3)基于KDP-means算法设计了一个中文文本聚类系统。利用KDP-means算法设计并实现了一个中文文本聚类系统。该系统首先通过分词、去除停用词、建立向量空间模型等方法,将文本数据向量化并提取其主要特征,然后利用KDP-means算法对其聚类,并对聚类结果进行评价。本文采用来自搜狗实验室的“中文文本分类语料库”对该系统进行了实验,并根据相关评价标准对结果进行分析。聚类结果表明,与聚类算法中的两个代表算法K-means算法和Birch算法相比,KDP-means算法具有更高的准确率。并且KDP-means算法不需要事先确定初始聚类中心以及聚类个数,这使该算法具有更高的实际应用性。
其他文献
机器人运动学是运动控制的关键,是机器人学研究领域中的难点之一。本文将共形几何代数(CGA)应用于并联机器人运动学中,遵循平面到空间,简单到复杂的原则,完成了几种典型的并联机构运动学求解,得到了各种类型的并联机构的单变量输入-输出多项式方程,获得了运动学的解析解。求解过程几何直观性强,避免使用旋转矩阵以及复杂的代数消元。探索了CGA在并联机器人运动学中的应用并为并联机器人正运动学分析提供了一种新思路
本文主要研究了Timoshenko方程组Cauchy问题及双极非等熵Euler-Poisson方程组周期区域问题光滑解的整体存在性.对Timoshenko方程组,将之化为一般对称双曲方程组形式,在Sobolev空间框架下,利用能量积分方法以及反对称化技巧,得到了解的能量估计和相应变量的耗散能量估计,再利用连续延拓的方法得到常平衡态附近解的整体存在性.对双极Euler-Poisson方程组,由于方程
从五粮液涉嫌关联交易事件到用友软件将大额研发费用资本化事件以及华力创通实施多项盈余管理以期实施股权激励等等,上市公司的盈余管理现象仍然比较普遍。对于盈余管理的治
图像插值技术作为图像处理中一个基础的、重要的分支,诸如在军事雷达图像、图像压缩、图像分辨率调整等领域中发挥着极其重要的作用。由于包括双线性插值、立方卷积插值(cubi
磁盘已经成为计算机存储系统的主要性能瓶颈,而固态盘是基于闪存的存储设备,具有读写性能高、能耗低和抗震性好等优点,近年来在个人电脑、移动设备、虚拟机服务器、高性能企
情感是一种和生理以及心理相关的过程,体现了人们对物体或事情的潜在反馈,在人与人之间的交流中有起到了重要的作用。我们既可以通过文字,也可以通过声音、面部表情和肢体动
随着计算机网络和大数据技术的飞速发展,敏感数据和个人隐私泄露的情况也越来越严重。负调查是一种可以在收集敏感数据的同时保护参与者个人隐私的调查方法,已有的关于负调查
稻谷在储藏环节会有较多的损耗,对国家造成极大的经济损失,并影响粮食的储备和供给。对稻谷储藏期间的品质变化、霉菌区系及真菌毒素含量变化情况进行研究并系统分析这些指标之间的相关性能更好的了解稻谷储藏过程中品质的差异及潜在的安全隐患,有助于保障稻谷的安全储藏。因此本研究对粮库中不同储藏期稻谷品质指标、霉菌区系和真菌毒素含量进行了测定,随后对这些指标之间的相关性进行分析,揭示了仓储稻谷的品质及安全性差异。
当今社会,各种高层、超高层构筑物如星罗棋布般分散在各个城市,在我们生活的方方面面扮演着各种各样的角色。而在建筑行业的激烈竞争中,怎样实现将工作效率高、安全性能好、绿色施工程度高的新型施工技术,应用在施工过程当中,成为了广大建筑企业刻不容缓的责任。在高耸构筑物施工过程中,模板的施工,是整个施工过程当中的一个重点及难点工程。传统的模板施工在高耸构筑物施工过程中表现出了诸多的缺点与不足,比如模板搭设难度
高职院校在我国高等教育中占有重要地位,校企合作是高职院校实现师资优化、人才培养等目标的必由之路与战略选择。高职院校校长作为学校的顶层领导人物,其多方面能力的表现,