K-Means算法研究及在文本聚类中的应用

被引量 : 0次 | 上传用户:a275505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,大量文本信息存储过程变得更加容易,在Web上可以利用文档的数量正在迅猛地增长。在知识的海洋中,可以利用的信息总量在持续增长的时候,而用户的理解和处理信息的能力维持不变,如何从这海量的信息当中寻找出自己感兴趣的信息,如何对这些未分类的文本信息进行分门别类等等,这些问题涉及一个新的研究方向——文本挖掘的研究。文本挖掘最重要的研究角度之一即为文本聚类挖掘。所谓文本聚类挖掘是一个发现文本集类别信息和包含内容的方法,将文本文档按照设定的相似度度量标准划分为指定数目的类别,使得每个类别中的样本具有较高的相似性并且给出各类别的概要描述。与对普通实验数据聚类相比,文本聚类有其自身的特点,相关的研究具有很大的挑战性。目前,针对K-Means算法研究及应用,尤其是在文本聚类挖掘层面的应用研究越来越多。本文首先系统地介绍了聚类分析和文本聚类挖掘的基本理论,然后针对K-Means算法的局限性提出自己的改进方法,最后将改进的K-Means算法应用在文本聚类挖掘中。首先,文章介绍了当前国内外的聚类算法和文本聚类挖掘的研究现状。相比之下,国外的研究相对比较成熟,国内主要的研究还只处在理论研究阶段。同时,简要地介绍了数据挖掘的理论内容,包括数据挖掘的概念以及数据挖掘的步骤等。然后,在介绍聚类的概念和聚类算法等聚类分析相关理论知识的基础上,着重阐释了K-Means算法,并对其优缺点进行分析。针对原K-Means算法受孤立点影响和初始聚类中心随机选择等问题,提出了带孤立点分析的改进的K-Means聚类算法。孤立点分析主要采用统计学中“Z分数(标准分数)的绝对值大于2的数据作为孤立点”的思想,这个方法不但有着严格的数学理论基础而且可以避免用户设定阈值的前提条件。确定初始聚类中心的策略是每次都把相对集中的数据先划分出来,这样就可以保证每个簇划分出的数据对象有着较高的相似性。孤立点检测可以降低孤立点对聚类结果的影响,改进的K-Means算法中的初始聚类中心确定策略可以降低算法陷入局部最优的可能性并在一定程度上减少算法迭代的次数。继而使用iris数据集对改进的算法进行实验,验证了改进的K-Means算法的效果和性能较原算法相比都有很大的提高。接着,描述了文本挖掘的概念和文本挖掘的主要过程,并实现了一个基于本文改进后的K-Means算法的文本聚类挖掘的应用实例。该应用实例主要包括文本预处理模块、聚类模块和性能评估模块三个模块,其中每个模块都给出详细设计思路和简要代码结构。在实例具体实现过程中,对数据预处理模块中的tf-idf值的计算提出“空间换时间”性能优化方案,对性能评估模块中的准确率计算给出相应的计算方法。随后,将设计好的应用实例应用在搜狗实验室“文本分类语料库”文本数据集上,并给出文本聚类挖掘的结果。最后,对本文做出总结并提出在研究过程中未能深入研究的相关问题,给出了聚类挖掘未来的研究方向。
其他文献
目的探索基于血糖负荷(GL)概念的食物交换份法用于2型糖尿病患者饮食教育的有效性。方法在上海市某三级甲等医院糖尿病门诊抽取72例2型糖尿病患者,采用随机数字法分为试验组
从跨国制药企业在华设立研发机构的新趋势入手,对其动因进行定性分析,以探讨我国应对跨国制药企业在华设立研发机构的对策。
玄言诗风行文坛逾百年,其影响不可低估,主要表现在它对其他类型言理诗的影响、对后世文人精神风貌的影响和对后世文学审美观念的影响等方面。
我国的医疗卫生事业是由政府实行一定福利政策的社会公益事业,是关系千家万户康居乐业,更是关系国家和民族未来的事业。公立医院作为我国医疗卫生机构的主体,承担着为社会提
<正>近年来,随着我国信托业的稳步快速发展,信托公司逐步建立了以信托业务为核心的盈利模式。信托业是一个高风险行业,信托公司在经营中面临着诸多风险,由个别信托公
随着城镇化进程的加快,小城镇数量及规模迅速发展,人口向城镇区域集聚。银川平原城镇区域作为宁夏全区自然、社会经济条件具有相对优势的地区,资源开发强度大,人口规模扩张迅
非线性科学作为研究非线性现象共性的新兴科学,逐渐成为跨越多学科的横断学科,其理论影响由动力学、热力学延伸到社会学、哲一个学、生态学、建筑学等各个领域,将人类社会与
本文扼要回顾了来华留学生教育的发展历程,指出来华留学生中公费生有所增加,但自费生仍占绝大多数;在华攻读学位的学历生有所增加,但仍然以短期进修生(特别是汉语进修生)为主
在解释纠正、纠正措施定义的基础上,阐明了受审核方对不符合项整改的步骤和方法以及审核组长验证整改效果的要点,并指出了对已通过整改符合要求的“不符合项”说成已“关闭”
近年来,商业银行之间的竞争日趋激烈,各个银行逐渐认识到了人才的重要性,如何发挥出人力资源的优势,获得竞争优势成为各家银行所考虑的问题。作为获取商业银行竞争优势的绩效