聚类算法在Web文本挖掘中的应用研究

被引量 : 8次 | 上传用户:kalok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的普及,企业信息化程度不断提高,人们对信息化服务的要求越来越高。在这个信息膨胀的时代,各种电子文本数据急剧增加,占据了网络资源的大部分空间,对于这些文本数据的分析、应用就成为了一个重要的课题。特别是对一些特殊文本(无结构化和半结构化文本)的挖掘分析成为了人们进行文本挖掘的一个难点。聚类技术作为文本数据挖掘中的重要技术之一,其思想是把内容相似度高的文本内容划分为同一类,而不同类之间的文本相似度尽可能的低。本文首先对文本聚类国内外研究现状进行了回顾,并且详细陈述了文本聚类的相关算法,对常用的聚类算法的优缺点进行了分析总结。K-means算法作为文本聚类算法中一个重要的算法,以其简单,实用性在实际中得到了广泛的应用。尤其是对文本、图像等多种数据的分析,K-means算法发挥了重要作用,并且取得了很多成果。但同时,K-means算法在实际的应用中也有其弊端:k的取值无法确定、初始聚类中心选择的不确定性、孤立点处理等。为了使K-means算法有一个好的起点,初始聚类中心的选择就相当重要。本文对K-means算法的初始聚类中心的选择进行了改进,引用了基于密度和最大距离的初始密度选择方法。在改进算法中,首先对样本数据中可能存在的孤立点进行了检测和处理,其次采用改进方法对初始聚类中心进行了选择,最后完成了算法的主体部分。结果表明,改进的算法在聚类中心选择上取得了成效。最后,将改进的算法应用于一个基于Web新闻聚类模型。该模型首先把从网页抓取的新闻的正文文本保存在数据库中,对其进行文本预处理、分词、特征选取、建立文章的特征向量等文本处理。然后对其特征向量进行聚类,得出聚类中心。最后建立一个文章的向量模型,依次计算其与聚类中心的相似度,把文本内容相似度高的划分为一类。得出聚类结果后,对聚类结果进行了分析。试验结果表明改进的算法与原算法相比较,在文本新闻聚类方面,聚类准确率和完整性都有所提高。
其他文献
近几年,我国对外贸易持续增长,在2011年已经成为了世界第二大的贸易国家,对外贸易的不断发展,致使我国的外贸依存度不断提升,较高的外贸依存度将影响我国经济的可持续发展。
党的十八大迎来了关系中国前途命运的"关键时刻"。在当前世界新军事变革已成为军事变革的潮流,国际形势大调整,中国社会大变革的新形势下,中国国防和军队现代化建设既迎来了
丁玲是一个有着鲜明个性的著名作家。自从上世纪三十年代初实现了创作转型以来,她的命运就同中国社会发展与文学发展扭结在了一起。那么为什么曾经个性张扬、女性意识极为强
本文对MRPⅡ、JIT、TOC三种生产计划与控制方法进行了深入的比较与分析,并在此基础上设计了三者集成的运作的模式。同时将新型供应链模式JITⅡ引入到集成模型中,为尚未和已经
会计信息反映了一个企业全部的生产经营过程,其质量的高低直接影响着企业的投资决策。我国的资本市场起步较晚,相关会计制度建设不完善,会计信息质量现状并不乐观。本文通过
目前电子商务发展势头非常迅猛,但是电子商务的发展还是要以物流作为支撑,物流行业的完善程度直接决定了电子商务的发展。然而我国作为发展中国家,物流还存在着很多的问题,特
<正> 朝鲜民族能歌善舞,其舞蹈分外绚丽而又历史悠久。自从朝鲜半岛分成南北两半,朝鲜民族又散居于世界各地以来,不仅南北朝鲜的舞蹈渐渐各异其趣,散居世界各地的朝鲜族舞蹈
百集“微纪录片”《故宫100》以每集6 分钟时长讲述了故宫博物院内100 座建筑的命运,兼具演绎故宫建筑的实用价值和美学价值,其创新性的表达方式和表现手法赢得了观众的青睐。
本文通过多学科的综合调查认为,红水河流域在经济社会发展、资源赋存与生态环境上是 独具特色的地理单元,在文化上也是独具特色的区域,是我国大西南一条重要的民族走廊。从民族
<正>美国陆军的防空装备主要包括毒刺导弹、复仇者导弹、爱国者导弹。美国海军的防空装备主要包括标准-2、标准-6导弹。美军已经具有非常完善的防空系统,然而,当前美军认为,