聚类算法在Web文木挖掘中的应用研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:keaiyuyu66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的普及,企业信息化程度不断提高,人们对信息化服务的要求越来越高。在这个信息膨胀的时代,各种电子文本数据急剧增加,占据了网络资源的大部分空间,对于这些文本数据的分析、应用就成为了一个重要的课题。特别是对一些特殊文本(无结构化和半结构化文本)的挖掘分析成为了人们进行文本挖掘的一个难点。聚类技术作为文本数据挖掘中的重要技术之一,其思想是把内容相似度高的文本内容划分为同一类,而不同类之间的文本相似度尽可能的低。   本文首先对文本聚类国内外研究现状进行了回顾,并且详细陈述了文本聚类的相关算法,对常用的聚类算法的优缺点进行了分析总结。K-means算法作为文本聚类算法中一个重要的算法,以其简单,实用性在实际中得到了广泛的应用。尤其是对文本、图像等多种数据的分析,K_means算法发挥了重要作用,并且取得了很多成果。但同时,K-means算法在实际的应用中也有其弊端:k的取值无法确定、初始聚类中心选择的不确定性、孤立点处理等。为了使K-means算法有一个好的起点,初始聚类中心的选择就相当重要。本文对K-means算法的初始聚类中心的选择进行了改进,引用了基于密度和最大距离的初始密度选择方法。在改进算法中,首先对样本数据中可能存在的孤立点进行了检测和处理,其次采用改进方法对初始聚类中心进行了选择,最后完成了算法的主体部分。结果表明,改进的算法在聚类中心选择上取得了成效。最后,将改进的算法应用于一个基于Web新闻聚类模型。该模型首先把从网页抓取的新闻的正文文本保存在数据库中,对其进行文本预处理、分词、特征选取、建立文章的特征向量等文本处理。然后对其特征向量进行聚类,得出聚类中心。最后建立一个文章的向量模型,依次计算其与聚类中心的相似度,把文本内容相似度高的划分为一类。得出聚类结果后,对聚类结果进行了分析。试验结果表明改进的算法与原算法相比较,在文本新闻聚类方面,聚类准确率和完整性都有所提高。
其他文献
离群点检测作为知识发现的重要部分,被广泛的应用于欺诈识别、入侵检测、故障诊断及恶劣天气预报等领域。近年来,随着人们对离群数据挖掘重要性认识的不断加深,以及其越来越
多视角视频拼接被广泛应用于视频监控、视频会议、卫星遥感等领域,它可以在保证高分辨率的情况下扩大视频视角,一直是计算机视觉领域的研究热点。多视角视频拼接的关键是视频
现实社会中存在着各种具有特定功能的系统,例如电子商务系统、科学著作系统、在线社交系统等,这些系统可被抽象为具有复杂内部结构的网络,称为复杂网络。很多研究表明,复杂网
在我国,化肥的施用存在利用率低、环境污染严重等问题。为了解决这些问题,必须进行精准变量施肥。国内外在变量施肥控制系统的研究方面有很多成果和进展。国外的成型系统尽管
学位
事件是指在某个特定的时间和环境下发生的,由若干角色参与,表现出若干动作特征的客观事实。事件抽取任务要求从含有事件信息的非结构化自由文本中,自动识别和抽取出包含有事
云计算(Cloud Computing)是一种服务按需交付的新兴模式,它将大量计算、存储、网络等资源池化,使各种应用系统能够根据需求获取各种资源和服务。而网络视频作为一种技术成熟、
随着无线传感器网络的不断发展,其应用范围涵盖军事安全、工业监控、环境监测与保护、医疗监护、智能家居、交通控制、精细农业等诸多领域。例如在基于无线传感网的高压输电
数字图像抠图技术是指把指定的前景从已有的自然图像中分离出来的一种技术。它最早被运用于影视业的特效制作中,为影视业赢得了巨大的商业价值。如今,抠图技术已经随着科技的
随着虚拟现实与计算机技术的不断发展,虚拟手术在医疗卫生领域发挥的作用越来越大,不仅可用于手术技能培训,还可用于手术规划、手术预演、手术导航等。在虚拟手术中,软组织形