基于向量空间的英文文本聚类方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户：yxs

【摘要】

：

【作者】

：

杨培全

【出处】

：

安徽大学

【发表日期】

：

2019年07期

【关键词】

：

向量空间模型英文文本聚类改进相似度算法奇异值分解

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

计算机技术和互联网的快速发展加剧了文本数据的膨胀,给网页文本信息分类带来了很大的挑战。面对当今网络中海量文本数据的多样性,如何挖掘数据的潜在价值、搜索可用数据信息具有重大意义。本文研究内容是英文文本聚类,它与汉语文本有着很大的不同。前者,单词之间被空格或标点符号分割;后者,句子是由词连续组成。英文文本处理的首要步骤是分词、去停用词和词干提取等处理,保留有效特征词。但是,预处理后的文本依然无法进行聚类分析,需要采用结构化方法对非结构化文本数据进行处理。本文选用基于代数论的向量空间模型(Vector Space Model,VSM),将预处理文本转化为特征和权值集合的形式,通过特征权重计算方法,把文本特征集转化为向量形式。该模型简单灵活,并且能够得到计算机处理的数据形式。但是,该模型存在不足之处:集合中每个文本由大量特征构成,文本向量的稀疏性和维度过高,给文本相似度的计算带来很大困难;词之间的关系相互独立,给文本聚类造成不利影响。针对上述问题,本文的主要研究内容如下:(1)针对文本向量的高维性与稀疏性给相似度计算带来的困扰,本文提出改进相似度计算方法。该方法可以准确获取文本之间的相似度值,很大程度上克服了相似度计算不准确的问题。同时,采用随机游走和堆叠降噪自动编码器方法,提升相似度矩阵抗干扰和弱边界划分能力,得到矩阵更深层次的特征表示,使得算法具有更好的鲁棒性。最后,选用基于划分方法的K-Means算法聚类分析。(2)进一步扩展到英文短文本聚类研究。短文本具有词量稀少、噪声大、不遵守语法规则,单个词表达能力强,对词语之间的关系更加敏感等特点。首先,分析短文本中词量稀少并且表达能力强的特点,得出词频-逆向文档(TF-IDF)方法会弱化特征词的表达能力,增加文本向量的稀疏性。本文通过词频统计作为短文本向量表示,能够简单而有效的保留文本所要表达的内容,一定程度上缓解了词语稀疏带来的问题。其次,基于实验论证,部分高频特征项会对后续奇异值分解算法产生不合理的共现关系传递,提出了一种词文档频率(Word Document Frequency)方法进行特征过滤。再次,考虑到词之间是相互独立关系,利用潜在语义索引中的SVD方法,挖掘词之间潜在语义关系,在保留原文内容的情况下达到去噪降维的目的。最后,由于短文本数据差异较大的特点,K-Means方法对“噪声”数据比较敏感,较大值会扭曲数据的分布。本文采用改进K-Medoids方法进行聚类分析,选取位于集群最中心的对象,避免异常值影响。本文选用简洁的VSM模型将原始文本转化为向量空间中的运算,针对该模型本身的不足之处,根据提供实验语料采用相适应的解决方法。实验结果表明,本文方法取得了较好的聚类效果。

其他文献

创新主体研发投入与创新能力的关系研究

本文以我国29个省份的面板数据,采用协整和FMOLS方法分析三大创新主体的R&D支出对专利授权量的影响。结果表明:全国范围、东部和中部地区以工业企业为主导的创新主体局面均已

期刊

创新主体创新能力R&DFMOLS协整回归

某坡地建筑地下室抗浮疏水设计方法

针对坡地建筑地下室抗浮设计问题,本文提出采用疏水设计方法,该方法既解决了坡地建筑地下室较难准确确定抗浮水位取值的问题,又可节省工程造价并缩短施工工期,是一种绿色技术

期刊

坡地建筑地下室抗浮设计疏水设计

小学低年级写字教学策略研究

识字和写字是小学低年级语文教学的重点。小学语文教师要根据新课程标准的要求,激发小学生的写字兴趣,选择科学合理的教学策略,有计划、有步骤地进行写字训练,让学生将字写得

期刊

小学语文低年级写字教学

可调钠结合超滤曲线模式透析预防血液透析中低血压

血液透析是治疗终末期肾衰尿毒症的重要方法之一,治疗中可发生多种并发症,血液透析相关性低血压是最常见的并发症,发生率可达20%～30%[1],低血压时会出现各种自觉症状使患者感

期刊

维持性血液透析患者低血压可调钠超滤曲线

浅析各类钢柱脚形式的设计构造要求

在结构设计中,钢结构在工业、民用结构选型时得到越来越多的使用,钢柱脚作为钢结构的基本构件,其计算牵扯到钢结构和混凝土结构的不同受力计算。而现在很多文章对某种柱脚的

期刊

柱脚埋入式插入式外包式外露式

社区减负需多方发力

老人在家中离世，开具死亡证明的事归社区管；一到申请公租房时，群众常常扎堆到社区开具收入证明……既缺少专业技术，又没有足够的人手上门调查，社区开具这些证明，确实“头痛”。$$在

报纸

泉水汇通誉天下人才济济聚齐鲁——济南高新区面向全球实施“高层次人才扶持计划”

人力资源是社会资源中的重要组成部分，其中人才资源更为重要。人才的竞争已成为区域经济社会发展中的重要部分。近日，济南高新区高起点搭建政策平台，相继出台《济南高新区高层次

期刊

高层次人才高新区泰山学者

论民间剪纸艺术在视觉传达设计教学中的应用

中华文明源远流长,民间剪纸艺术在中华文明的传承中具有重要的影响,延续了中华文明的生命。民间剪纸艺术经过千百年的沉淀,形成独具一格的表现形式,蕴含着古人造物的理念和传

期刊

民间剪纸视觉传达艺术教学

浅析新四军江北指挥部成立的历史背景和原因

新四军江北指挥部从成立到撤销虽然只有短短的20个月,但在中华民族抗日战争史上留下了浓墨重彩的一笔。面对侵华日军对皖中地区的不断进攻和疯狂推进,皖中地区成了抗日前线,

期刊

新四军江北指挥部历史背景

一起A群乙型溶血性链球菌扁桃体炎局限性流行的分析报告

1996年6月12～29日海军某干休所车队陆续发现了一批急性化脓性扁桃体炎患者。经病原学检查诊断为A群乙型溶血性链球菌扁桃体炎局限性流行。一、流行征况：海军某干休斯车队有干部

期刊

乙型溶血性链球菌扁桃体炎分析报告

基于向量空间的英文文本聚类方法研究

与本文相关的学术论文