基于向量空间模型的文本聚类算法研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:wdongjiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类在文本挖掘和信息检索系统中发挥着重要的作用。这种技术可以改善检索性能、提供导航/浏览机制、发现相似文本等。因此,文本聚类已成为一种处理和研究文本的重要技术。 文本聚类的首要问题是如何将文本内容这种半结构或无结构化的数据表示成为结构化数据。目前多数文本聚类算法都是以向量空间模型(VSM)为基础的。这种文本表示方法非常简单,但却引发了高维稀疏的问题。而且,基于向量空间模型的聚类算法都没有很好地解决文本数据所特有的两个自然语言问题:近义词和多义词。所有这些问题都极大干扰了文本聚类算法的效率和准确性,使文本聚类的性能下降。虽然人们提出通过向量空间权重调整和降维技术来解决上述问题,但是这些方法都有自身的缺点。向量空间权重调整法实际上并没有解决以上问题,它只能非常有限地提高文本聚类的性能。降维法虽然解决了高维稀疏问题,但是降维的代价一般都非常大。为了避免上述问题的产生,本人做了以下工作: 第一:提出了一种优化初始聚类中心的K—平均聚类算法。该算法从传统K—平均算法对初始聚类中心的敏感性分析出发,结合一种改进的遗传算法和网络中心数学模型对初始聚类中心进行优化,有效的解决了算法对初始聚类中心的敏感性问题。 第二:在向量空间模型中,由于文档集所对应的是一个高阶的稀疏矩阵,因此计算量巨大;同时由于词间多义性和同义性的存在,因而会使不相关的文档被聚类在一起,而相关的文档不能聚类在一起。因此本文提出了一种基于词关联语义的双向文本聚类迭代算法来解决这一问题,该算法先以句子为单位建立词之间的关联矩阵,考虑了词条本身所蕴含的含义以及词与词之间的关系,然后分别对词及文挡进行聚类,通过词的聚类来调整文档的聚类,反过来也通过文档聚类来调整词的聚类,经过如此反复迭代来调整聚类结果。经实验证明调整之后的聚类簇内聚性更强,类间区分度更大,聚类结果更为准确,能有效的消除同义词带来的问题。
其他文献
计算机技术在石油钻井工程领域的应用日益深入,从钻井工程设计到每一个施工阶段,都离不开计算机技术的应用。钻井工程的信息庞大而复杂,钻井作业地域分布广泛,数据资源存在异构、
聚类是数据挖掘中一项重要的研究课题,在数据挖掘、模式识别、统计数据分析、自然语言理解等领域都有广泛的应用前景。聚类评价指标对衡量一个聚类的优劣有着重要作用,聚类评价
近年来,服务工作流迅速发展,它是工作流、Web服务、网格等多种技术分支交叉结合而来的一种新兴技术。尤其在科学工作流发展的今天,要求工作流具有更强的动态性及数据共享能力。
近年来,天然气作为一种优质高效的能源和重要的有机化工原料,在世界能源结构中越来越受到重视。在我国石油需求量日益增加的情况下,大力发展天然气能源,改善我国的能源结构,已成为
近些年,随着移动互联网技术的发展,移动便携设备的开发使用已然成为主流。在有害生物图像自动识别方面,各种PC端的果蝇识别软件被很好的研究利用。但是,基于移动便携设备如手
近年来,新一代高通量DNA测序技术的快速发展,给人类研究基因组学和转录组学提供了巨大的技术支持,取得前所未有的成就。基于新一代测序技术的RNA-seq技术,正快速取代传统基因
视频点播服务简称VOD服务,它是随着有线数字电视、计算机网络和计算机应用技术的发展而兴起的一种实时的、双向的、交互的数字电视服务。在数字电视领域,它的出现主要是为了改
Job-shop调度问题是生产调度领域的一个热点、难点,是许多实际生产调度问题的典型调度简化模型,是一类典型的NP-hard问题,对它的研究具有重要的理论意义和应用价值。 针对以
随着移动计算技术的发展,移动计算系统开始逐渐走进人们的生活。在很多移动计算系统中,事务具有实时性要求,如移动股票交易系统、导航/定位系统等。但是由于移动通信网络具有
P2P直播流媒体业务在近年来得到了较为广泛的应用,随着业务种类和用户规模的日益增长,如何对当前的P2P直播流媒体系统进行性能优化,降低系统开销及提升用户体验成为重要的研