论文部分内容阅读
计算机技术和互联网的快速发展加剧了文本数据的膨胀,给网页文本信息分类带来了很大的挑战。面对当今网络中海量文本数据的多样性,如何挖掘数据的潜在价值、搜索可用数据信息具有重大意义。本文研究内容是英文文本聚类,它与汉语文本有着很大的不同。前者,单词之间被空格或标点符号分割;后者,句子是由词连续组成。英文文本处理的首要步骤是分词、去停用词和词干提取等处理,保留有效特征词。但是,预处理后的文本依然无法进行聚类分析,需要采用结构化方法对非结构化文本数据进行处理。本文选用基于代数论的向量空间模型(Vector Space Model,VSM),将预处理文本转化为特征和权值集合的形式,通过特征权重计算方法,把文本特征集转化为向量形式。该模型简单灵活,并且能够得到计算机处理的数据形式。但是,该模型存在不足之处:集合中每个文本由大量特征构成,文本向量的稀疏性和维度过高,给文本相似度的计算带来很大困难;词之间的关系相互独立,给文本聚类造成不利影响。针对上述问题,本文的主要研究内容如下:(1)针对文本向量的高维性与稀疏性给相似度计算带来的困扰,本文提出改进相似度计算方法。该方法可以准确获取文本之间的相似度值,很大程度上克服了相似度计算不准确的问题。同时,采用随机游走和堆叠降噪自动编码器方法,提升相似度矩阵抗干扰和弱边界划分能力,得到矩阵更深层次的特征表示,使得算法具有更好的鲁棒性。最后,选用基于划分方法的K-Means算法聚类分析。(2)进一步扩展到英文短文本聚类研究。短文本具有词量稀少、噪声大、不遵守语法规则,单个词表达能力强,对词语之间的关系更加敏感等特点。首先,分析短文本中词量稀少并且表达能力强的特点,得出词频-逆向文档(TF-IDF)方法会弱化特征词的表达能力,增加文本向量的稀疏性。本文通过词频统计作为短文本向量表示,能够简单而有效的保留文本所要表达的内容,一定程度上缓解了词语稀疏带来的问题。其次,基于实验论证,部分高频特征项会对后续奇异值分解算法产生不合理的共现关系传递,提出了一种词文档频率(Word Document Frequency)方法进行特征过滤。再次,考虑到词之间是相互独立关系,利用潜在语义索引中的SVD方法,挖掘词之间潜在语义关系,在保留原文内容的情况下达到去噪降维的目的。最后,由于短文本数据差异较大的特点,K-Means方法对“噪声”数据比较敏感,较大值会扭曲数据的分布。本文采用改进K-Medoids方法进行聚类分析,选取位于集群最中心的对象,避免异常值影响。本文选用简洁的VSM模型将原始文本转化为向量空间中的运算,针对该模型本身的不足之处,根据提供实验语料采用相适应的解决方法。实验结果表明,本文方法取得了较好的聚类效果。