基于改进FCM算法的无字典中文文本聚类方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:z987z654z123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,伴随着网络的快速发展和壮大,各式各样的信息也随之而来,其数量是难以估计的,其中又是以文本形式存在的数量最为巨大。对于这些数量巨大的文本信息,通过计算机的辅助,对其进行聚类或分类的操作再进行后继的处理,是目前一种常见的文本处理手段。本文主要讨论研究了与中文文本相关的聚类处理过程,主要是如何通过分词统计,特征表示,模糊聚类来得到一个好的文本聚类集。我们一般将一个文本表现为一个超空间矢量,矢量的各维坐标是文本中的各个词的词频相关信息。中文文本比起英文等外语文本,其聚类处理过程还要增加一个分词处理过程。本文重点研究了统计分词算法,通过引入字符串置信度概念,通过其进行冗余字符串的剔除,弥补了统计分词下伪字符串过多的缺点。对于最关键的聚类方法,重点研究了FCM算法的理论由来,处理方法以及缺点不足。针对FCM算法的三个主要缺点,我们引入模糊聚类有效性函数和半监督聚类方法进行弥补。通过对改进了的目标函数的数学推导,得到了改进了的隶属度函数。在此基础上,我们提出了一种新的PSFCM算法来作为文本聚类的算法,并对其进行了验证分析,证实了其主要优点就在于自适应选择聚类数,以及较强的鲁棒性。最后,我们在文本聚类上的使用该算法进行实际的操作,证明了该算法在文本聚类处理上有着较好的表现。
其他文献
随着通信和计算机技术的发展,产生了横跨电信和计算机两大领域的CTI技术。而呼叫中心作为CTI技术的最重要的应用之一,是21世纪企业新的增长点。作为一种全新的服务方式,呼叫
在这个信息爆炸的时代,随着图像资源的日益丰富,传统的基于关键字和文本描述的传统模式已经不能满足图像检索的需要。基于内容的图像检索技术应运而生,它是综合图像识别、计算机
随着现代竞技运动水平逐渐向人类自身能力的极限逼近,在这种情况下,一般的、普通的青少年是很难有希望成为未来竞技场上的优胜者的。只有用科学的手段和方法,挑选出那些真正有天
本文主要就影响医学图像分割的分割速度和弱边界目标的分割精度等几个关键问题,在对水平集方法和Chan-Vese模型有了深入理解和研究的基础之上,做了大量实验和分析,提出了如下
随着网络技术的高速发展,Internet上的信息呈指数增长。人们要想在众多的信息资源中找到自己需要的信息非常困难,有时即使找到也是混有“噪音”的信息。如何能够快速地找到用户
高性能纤维增强的抗弹复合材料由于具有比强度、比刚度高并具有可设计性等优点,在装甲防护、工事防护、人体防护等领域得到了越来越广泛的应用,成为未来防护材料技术发展的重
工作流技术(WorkFlow)以其在实现业务流程的自动化上的优势而成为一个新兴技术亮点。电力两票制度是电力企业安全稳定运行的重要保证。开出工作票/操作票是一个涉及多部门,需
在信息技术飞速发展的今天,信息安全是网络应用不可避免的问题。保障信息的机密性、完整性、通信双方身份认证和不可抵赖性等成了急需解决的安全问题。安全中间件克服了传统安
非单调知识库访问控制中如何以正确的授权方式使用ASP知识库是一个非常重要、且极具挑战性的问题。回答集程序设计(Answer Set Programming,ASP)是一种主流的知识表示和推理
近几年,呼叫中心迅速发展,在企业中所占的地位越来越重要。呼叫中心是企业和客户之间的重要沟通渠道。呼叫中心的语音质量就直接影响了企业和客户关系。随着经济的发展,消费