基于密度的改进K-Means文本聚类算法研究

被引量 : 28次 | 上传用户:lifeisaboat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术和计算机网络的不断发展,每天有数亿的分布式信息被人们所共享。如何在这些海量的、异构的信息资源中快速而有效的检索出需要的信息成为人们日益关注的问题。知识发现和数据挖掘技术是解决这一问题的最新课题。文本聚类是文本发现和文本挖掘的最重要、最基本的功能之一,近年来文本聚类算法的研究取得了长足的发展和一系列的研究成果。目前常用的文本聚类算法有五类:基于划分的聚类算法,如最常用的K-means算法;基于层次的聚类算法;基于密度的聚类算法,如DBSCAN算法;基于网格的聚类算法和基于模型的聚类算法K-means算法是文本聚类算法中的最经典的基于划分的算法之一。其主要思想是随机选择K个初始中心点,将每个簇中心用该簇中数据的均值表示。这种算法具有时间复杂度低,实现简单等优点,对处理大数据集的可伸缩性较好。但是该算法也有比较明显的缺点:首先该算法的聚类效果对聚类初始中心的选择和设置过于敏感,极易导致聚类结果随之波动;其次是需要提前给定K值固定聚类个数;另外该算法在运行中容易陷入局部最优解。本文对传统的K-means算法加以改进,主要有两个方面的。首先基于距离和统计的思想对数据集中的孤立点进行了检测,先将数据点之间按最近距离升序排列,计算出所有数据点最近邻距离最大的几个数据点的最近邻距离差,以最大的距离差对应的距离值为半径对数据点的密度进行统计,将密度小于密度阈值的数据点进行统计学标准化值的检测,从而判断出数据集的强孤立点和部分弱孤立点并进行处理。其次提出一种可变步长的初始中心点选取算法。先将最近最小距离的数据点的平均距离计算出来,以此建立可变步长的半径空间,数据点的从小到大在半径空间中选取半径,对半径密度值进行计算,最终将半径密度最大最远的数据点作为初始聚类中心点进行输出。最后将基于距离和统计的孤立点检测算法和基于可变步长的初始中心选取算法结合到传统的K-Means聚类算法中,产生了基于密度的改进K-Means文本聚类算法。该算法通过对孤立点的检测和处理能避免传统K-Means算法容易陷入局部最优解的情况;又通过可变步长选取初始中心点能够提高传统算法的执行效率和聚类的质量。经过实验数据的检测证实该算法能从聚类效果和质量上都有所提高。
其他文献
从人类学、社会语言学的角度分析语言文化中“三种关系”的内在联系。简述语言学习不能脱离文化、脱离环境。只有弄清关系。统一认识才能更好地学习语言,使用语言。 From th
针对西北黄土高原地区河谷型城镇“上山建城”是否可行的争论,该文通过对相关文献资料的查阅和分析,运用比较研究的方法,得出了相关研究仍处于初步探索阶段,亟待必要性和可行
从生态系统到金融市场和气候在内的很多复杂动力系统,都会有临界点,在这样的点上系统可能会发生突变,从而演变到一个对立的动力模式上。在这样的临界点到达之前对其进行预测
<正>早期发现、确诊并正确治疗糖尿病的重要性毋庸置疑。而糖尿病的诊断、分型、病情的进展、并发症的判断及预后都与实验室检查密切相关。检测项目的科学选择及检测结果的正
本文以青岛市的防震减灾宣传实践为例,总结了近年来青岛市防震减灾宣传工作的特点与对策。
首先论述了地统计学的一些特点 ,然后从变异函数和Kriging插值两个方面介绍了地统计学的分析技术 ,最后讨论了地统计学在气象研究中的适用性。
<正>碘缺乏病是一个全球性公共卫生问题。据统计,目前全球有110个国家共16亿人生活在缺碘地区。碘缺乏病最大的危害不仅表现在甲状腺肿、克汀病,并且对儿童智力有不可逆的损
股票市场作为市场经济的“晴雨表”反映着我国经济的总体状况,在我国经济发展中起着重要的作用。随着股票市场的发展,越来越多的人选择投资股票。为了可以准确的选择优秀的上市
教科书是新课程理念的重要呈现方式,同时也是国家进行价值观控制的物质媒介。在各科教科书中,历史教科书具有一定的特殊性,除传授历史知识和技能外,还是一般国民普遍历史观的主要
蔡镇钰,男。 1936年 6月出生,江苏常熟人。享受教授级待遇的高级建筑师。1956年毕业于南京工学院建筑系,1959年赴莫斯科建筑学院民用建筑系学深造,研究公共建筑设计, 1963年获建筑学博士学位; 1994年被评