基于近邻传播算法的中文文本聚类的研究

被引量 : 0次 | 上传用户:zhengwei129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,知识量急剧增长,数据挖掘技术提供了一种从海量数据中寻找所需信息的有效理论。数据挖掘中数据的形式是多样的,本文主要是针对以中文为信息载体的文本,对中文形式的数据进行挖掘,利用近邻传播算法(Affinity Propagation Algorithm,后文简称AP算法)及其相关改进,实现文本集的聚类。本研究设计分为两大部分,第一部分主要是对中文文本的处理工作;第二部分主要是对聚类算法---AP算法进行研究,然后对算法做出改进、更新,最后应用到中文文本挖掘中。由于中文字符的编码特性,中文词语无空格标识、难切分,以及中文语义导致切分产生歧义、无法识别未登录词等诸多问题,故在挖掘前需对数据进行预处理。本文选用中科院提供的ICTCLAS软件接口实现分词。分词后通过编程实现对文本数据的处理,计算特征向量、特征矩阵、相似度矩阵。最后,将处理结果写入相关文件中。本文选取AP算法作为聚类核心算法来实现聚类。第一,首先与Kmeans进行对比试验,观察AP算法聚类性能,然后对AP算法做出改进。第二,改变作为该算法输入的相似度矩阵的计算方法,通过降低文本集数据表征的特征向量的维度来提升计算相似度的速度,同时也提升表征文本集间信息的性能。第三,改进算法迭代过程中引入的阻尼因子λ的计算方法,提高对算法收敛的控制及避免算法因数据因素可能产生的震荡干扰,从而增强对算法健壮性的控制。第四,改进偏好参数p的计算方法,根据聚类需要,控制聚类数。整个更新的AP聚类算法在matlab下编程实现,通过与原AP算法对比试验,观察性能的提升状况。试验对比发现,更新后的AP算法比原AP算法具有更为优越的聚类性能。最后用更新后的AP算法来聚类中文文本集,实现了100篇tet文档的中文文本集的聚类。本文的实验前部分利用面向对象语言java实现文本的读写、预处理、计算相似度矩阵,并将相似度矩阵写入excel表格中。后部分使用matlab编程实现聚类算法,最终将聚类结果写入excel表格中。
其他文献
大孔径超深通风竖井施工中需要结合实际的工程情况,严格按照工程的施工标准来进行,确保施工的安全性。文章从大孔径超深通风竖井的适用范围、工程原理等出发,分析了施工工艺
目的探讨优质急诊护理在严重创伤失血性休克患者中的应用效果。方法选取2016年2月至2017年1月在周口市人民医院接受常规护理的30例失血性休克患者为对照组,选取2017年2月至20
本文是在统筹城乡发展,加快建立覆盖城乡居民的社会保障体系大背景下,遵循“保基本、广覆盖、有弹性、可持续”的基本原则,参照国家新农保等有关政策,选取农民社会保障体系中的重
双马来酰亚胺树脂(BMI)是一类高性能热固性树脂,具有良好的加工性能、耐热性能、介电性能和机械性能。但是普通的双马来酰亚胺溶解性差、熔点高以及固化物交联密度高、性脆等
目的探究优质急诊护理在严重创伤失血性休克患者中的应用效果。方法选取本院收治的110例严重创伤失血性休克患者,对患者进行分组对照分析,其中55例患者纳入对照组中并给予常
民生问题,历来是中国社会的重要问题,也是马克思主义执政党致力于解决的重要问题。中国共产党的历史,就是一部为了不断保障和改善民生而不懈奋斗的历史。改革开放以来,中国共
本文介绍了国外,特别是美苏两国对钢-铝异种金属采用电子束焊接的一些情况。给出了电子束焊接的工艺过程及其特点。电子束焊接具有一系列的优点,不仅在民用工业中的应用越来
真正的'C4ISR需求'只存在于人脑里,通过有效的模型表述C4ISR需求是C4ISR需求分析的关键.首先,分析C4ISR需求的内涵,提出C4ISR需求体系的概念,给出C4ISR需求模型化思
在众星云集的当代文坛,张洁可说是最受争议也最有影响力的女作家之一。进入到新世纪之初,她推出了极具震撼力的长篇巨著《无字》,以恢弘的历史跨度和深刻的剖析视角为人们展
随着我国交通事业的迅猛发展,国家中长期路网的规划实施,必然会修建大量的长大隧道,而特长隧道将成为工程工期的控制点。使用合理的机械化施工方案是缩短工期的一个关键环节