论文部分内容阅读
随着信息技术的发展,形成了海量的非结构化文本数据,文本挖掘的重要性日益凸显。文本表示是将文本中大量非结构化或半结构化的字符信息转换为简洁统一的结构化形式,广泛应用于文本分类、聚类、检索等领域,是文本挖掘中关键且重要的环节。文本数据的高维、稀疏和词义相关等特性影响了文本表示理论与技术的研究发展,已有方法大多假定文本词语的分布是全局欧式词袋空间,即任意词语间相互独立,忽略了词义间的相关性,因而未能充分利用文本的语义特征。实际上,如果能够提取更为丰富的文本语义信息,特别是利用近邻文本的局部欧式特性,保持近邻文本低维流形空间的特征光滑性,可以更有效地提升文本表示的效果。论文基于流形学习理论,以保持文本表示向量的局部光滑性为突破点研究低维稠密向量的文本表示方法。首先,结合词语分布式语义特征提出基于词嵌入的文本相似性度量方法,并以此为基础构建文本近邻图用于局部近邻文本判定,再利用局部近邻文本话题加权嵌入自编码网络构建参数化文本话题编码函数(文本话题建模),融合局部近邻文本话题概率生成结构建立文本仿射映射函数(文本嵌入表示)。论文的主要成果和创新点包括:1.提出了一种结合文本集词聚合、词组合分布式语义特征的文本相似性度量方法,该方法充分利用了词语间语义联系,提升了低共现词汇文本的相似性度量准确性。针对文本相似性度量割裂词义联系,使得低共现词汇文本相似性度量效果不理想的问题,提出了一种结合词聚合、词组合分布式语义特征的文本相似性度量方法。该方法首先联合文本集中词聚合、词组合分布式语义特征进行自编码填词预测,通过自编码的训练过程建立词嵌入编码网络;然后采用词嵌入的最大加权匹配距离计算文本相似性。基于维基百科、20 newsgroups和RCV1语料库分别对词嵌入和文本相似性进行实验。在词嵌入实验中,词类比的正确率达到73.95%,词义辨析的斯皮尔曼等级相关性达到74.12,结果表明,联合词聚合与词组合分布式语义特征构建词嵌入编码网络能表达更丰富的分布式语义信息。在文本相似性实验中,利用词嵌入最大加权匹配距离的文本聚类NMI达到63.1%,利用词嵌入最大加权匹配距离的文本分类?达到71.59%,结果表明,利用词嵌入编码网络所构建的词嵌入向量计算词嵌入最大加权匹配距离,可有效利用词语间语义联系,进一步提升文本相似性度量的准确性。2.提出了一种局部近邻文本话题加权嵌入自编码网络的文本话题建模方法,该方法可建立参数化的文本话题编码网络进行样本外话题建模,并通过利用局部近邻文本话题几何结构的光滑性,进一步提高了文本分类、聚类等应用的效果。针对流形文本话题建模方法无法提供一个参数化话题编码函数进行样本外话题建模和现有样本外扩展的流形学习方法没有利用局部近邻文本话题几何结构的光滑性的问题,提出了一种局部加权嵌入正则化自编码文本话题建模方法(LWE-TM)。该方法利用低秩近似随机游走结构的条件访问概率计算局部近邻文本的加权系数,并将局部近邻文本话题加权嵌入自编码网络,进而保持局部近邻文本话题几何结构光滑性,建立参数化的文本话题编码网络。基于20 newsgroups和RCV1两种文本集的样本外话题编码进行了文本建模、聚类和分类实验。在文本建模实验中,困惑度分别达到679和1800;在文本聚类试验中,LWE-TM的NMI效果提升至接近74%,在文本分类实验中,LWE-TM的达到86.59%,结果表明,LWE-TM利用建立的参数化文本话题编码网络可有效地进行样本外话题建模,拓展用于文本分类、聚类问题;通过保持局部近邻文本话题几何结构的光滑性,增强了文本话题编码的光滑性,提升样本外话题建模的准确性。3.提出了一种融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法,该方法通过保持局部近邻文本话题概率生成结构的光滑性,进一步提高了文本分类、聚类等应用的效果。针对现有文本嵌入表示方法无法有效保持局部近邻文本话题概率生成结构光滑性的问题,提出了一种融合局部近邻文本话题概率生成结构的文本嵌入表示方法(Disc-LDE)。该方法首先基于文本相似性度量构建文本近邻图;然后通过执行近邻图直推式多代理随机游走,构建了具有高重叠比例的子空间;最后利用子空间近邻文本的LDA模型生成伪文本,将其作为流形正则项与真实文本一起进行自编码网络的优化重构,构建光滑的仿射映射函数,执行样本外文本嵌入。基于20 newsgroups、RCV1和Amazon reviews三个文本集对样本外文本嵌入表示进行了聚类和分类实验。Disc-LDE的聚类NMI效果提升到近71%,分类?效果提升达到83.91%,结果表明,具有较高重叠比例的子空间可以有效保持局部近邻文本话题概率生成结构的光滑性,从而构建光滑的仿射映射,进一步提高了文本分类、聚类等应用的效果。