论文部分内容阅读
词向量是深度学习背景下的新兴技术,与传统词袋模型不同,词向量将每个词语映射到特殊的语义向量。本文对词向量技术进行系统研究,并通过主题评估的形式实现基于词向量的大规模文档语义分析。词袋模型作为传统文档挖掘的基础被应用于各项任务的文档表示环节,然而,词袋模型无法对文档中词语的顺序、语义和句法关系进行分析,而且会因为词汇表的不断增加最终导致维度灾难——这些不足都对大规模文档语义分析造成巨大挑战。另一方面,词向量建立于相似功能的词语拥有近似向量表达形式的假设,为每个词语分配一个定长实数向量,克服了词袋模型一些固有的不足。词向量能有效捕捉文本的语义和句法功能,并在一定程度上通过对词向量进行简单的代数运算发现对应词语的语言规律,参见“国王”+“男人”-“女人”=“女王”。 本文基于词向量提出一种新型方法,实现从大规模文档集合中有监督和无监督的主题生成,并根据生成结果对任意文档进行主题评估,该算法被整合到本文提出的语义框架MIND(mining documents)当中。具体而言,主题集合通过关键词特征提取和三重语义优化产生,具备良好的表达能力。一旦生成,主题集合即可用于评估当前文档的主题分布,这是本文中文档分析工作的基础。本文将演示MIND框架主题集合生成和评估的整个过程,并通过系列实验验证MIND框架的有效性,其中包括将主题分布近似为软文档分类,并与基于LDA的传统分类算法作比较。 实验数据表明,MIND框架在没有任何优化和背景知识的情况下,快速生成具有良好的表达能力的主题集合。在此基础上,本文对提出的MIND框架功能和应用进行更深入的探讨,包括自适应主题选择、无监督主题生成、错例修正等,并对词向量在不同维度和训练语料对文档分类的结果进行量化评估。本文实现了MIND框架的Java代码,仅用于研究目的。