基于密度的改进K-Means文本聚类算法研究

被引量 : 28次 | 上传用户：lifeisaboat

【摘要】

：

伴随着信息技术和计算机网络的不断发展,每天有数亿的分布式信息被人们所共享。如何在这些海量的、异构的信息资源中快速而有效的检索出需要的信息成为人们日益关注的问题。

【作者】

：

贾永娟

【发表日期】

：

2014年01期

【关键词】

：

K-Means算法可变步长密度阈值最近邻距离

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着信息技术和计算机网络的不断发展,每天有数亿的分布式信息被人们所共享。如何在这些海量的、异构的信息资源中快速而有效的检索出需要的信息成为人们日益关注的问题。知识发现和数据挖掘技术是解决这一问题的最新课题。文本聚类是文本发现和文本挖掘的最重要、最基本的功能之一，近年来文本聚类算法的研究取得了长足的发展和一系列的研究成果。目前常用的文本聚类算法有五类：基于划分的聚类算法，如最常用的K-means算法；基于层次的聚类算法；基于密度的聚类算法，如DBSCAN算法；基于网格的聚类算法和基于模型的聚类算法K-means算法是文本聚类算法中的最经典的基于划分的算法之一。其主要思想是随机选择K个初始中心点，将每个簇中心用该簇中数据的均值表示。这种算法具有时间复杂度低，实现简单等优点，对处理大数据集的可伸缩性较好。但是该算法也有比较明显的缺点：首先该算法的聚类效果对聚类初始中心的选择和设置过于敏感，极易导致聚类结果随之波动；其次是需要提前给定K值固定聚类个数；另外该算法在运行中容易陷入局部最优解。本文对传统的K-means算法加以改进，主要有两个方面的。首先基于距离和统计的思想对数据集中的孤立点进行了检测，先将数据点之间按最近距离升序排列，计算出所有数据点最近邻距离最大的几个数据点的最近邻距离差，以最大的距离差对应的距离值为半径对数据点的密度进行统计，将密度小于密度阈值的数据点进行统计学标准化值的检测，从而判断出数据集的强孤立点和部分弱孤立点并进行处理。其次提出一种可变步长的初始中心点选取算法。先将最近最小距离的数据点的平均距离计算出来，以此建立可变步长的半径空间，数据点的从小到大在半径空间中选取半径，对半径密度值进行计算，最终将半径密度最大最远的数据点作为初始聚类中心点进行输出。最后将基于距离和统计的孤立点检测算法和基于可变步长的初始中心选取算法结合到传统的K-Means聚类算法中，产生了基于密度的改进K-Means文本聚类算法。该算法通过对孤立点的检测和处理能避免传统K-Means算法容易陷入局部最优解的情况；又通过可变步长选取初始中心点能够提高传统算法的执行效率和聚类的质量。经过实验数据的检测证实该算法能从聚类效果和质量上都有所提高。

其他文献

简析语言文化中的“三种关系”

从人类学、社会语言学的角度分析语言文化中“三种关系”的内在联系。简述语言学习不能脱离文化、脱离环境。只有弄清关系。统一认识才能更好地学习语言,使用语言。 From th

期刊

语言文化三种关系

西北黄土高原地区河谷型城镇山地利用研究综述

针对西北黄土高原地区河谷型城镇“上山建城”是否可行的争论,该文通过对相关文献资料的查阅和分析,运用比较研究的方法,得出了相关研究仍处于初步探索阶段,亟待必要性和可行

期刊

西北地区黄土高原河谷型城镇山地利用研究综述

临界转换的早期预警信号

从生态系统到金融市场和气候在内的很多复杂动力系统,都会有临界点,在这样的点上系统可能会发生突变,从而演变到一个对立的动力模式上。在这样的临界点到达之前对其进行预测

期刊

预警信号分岔点早期预警

糖尿病的实验室检测指标及其临床应用

<正>早期发现、确诊并正确治疗糖尿病的重要性毋庸置疑。而糖尿病的诊断、分型、病情的进展、并发症的判断及预后都与实验室检查密切相关。检测项目的科学选择及检测结果的正

期刊

糖尿病ADA常规检测CRP尿微量白蛋白胰岛素原实验室检测指标

新时期防震减灾宣传工作的特点与对策

本文以青岛市的防震减灾宣传实践为例,总结了近年来青岛市防震减灾宣传工作的特点与对策。

期刊

青岛防震减灾宣传防震减灾对策

地统计学分析技术及其在气象中的适用性

首先论述了地统计学的一些特点 ,然后从变异函数和Kriging插值两个方面介绍了地统计学的分析技术 ,最后讨论了地统计学在气象研究中的适用性。

期刊

地统计学变异函数Kriging插值

世界各国如何防治碘缺乏病?

<正>碘缺乏病是一个全球性公共卫生问题。据统计,目前全球有110个国家共16亿人生活在缺碘地区。碘缺乏病最大的危害不仅表现在甲状腺肿、克汀病,并且对儿童智力有不可逆的损

期刊

碘缺乏病公共卫生问题食盐加碘尿碘中位数世界各国

决策树及神经网络算法在股票分类预测中的应用

股票市场作为市场经济的“晴雨表”反映着我国经济的总体状况，在我国经济发展中起着重要的作用。随着股票市场的发展，越来越多的人选择投资股票。为了可以准确的选择优秀的上市

学位

数据挖掘决策树神经网络股票市场

初中历史教科书价值取向的研究

教科书是新课程理念的重要呈现方式，同时也是国家进行价值观控制的物质媒介。在各科教科书中，历史教科书具有一定的特殊性，除传授历史知识和技能外，还是一般国民普遍历史观的主要

学位

初中历史教科书价值取向

探索有中国特色的生态建筑观──建筑设计大师蔡镇钰先生访谈录

蔡镇钰，男。１９３６年６月出生，江苏常熟人。享受教授级待遇的高级建筑师。１９５６年毕业于南京工学院建筑系，１９５９年赴莫斯科建筑学院民用建筑系学深造，研究公共建筑设计，１９６３年获建筑学博士学位；１９９４年被评

期刊

建筑设计大师生态建筑观有中国特色生态哲理江苏常熟环境观室内外环境

基于密度的改进K-Means文本聚类算法研究

与本文相关的学术论文