论文部分内容阅读
自动文本分类技术在文本挖掘、自然语言处理以及机器学习等领域具有重要地位,它为信息检索与文本管理提供了很多便利。近年来随着互联网技术的高速发展,文本数据每天都在迅速膨胀,比如用户所发的微博动态信息、各大新闻门户网站的新闻内容、用户来往的电子邮件信息以及论坛、博客的帖子等。自动文本分类恰好是处理和组织这些文本数据的有效工具,已经在许多方面得到了应用,如微博情感分类、垃圾邮件过滤以及新闻内容自动分发等。未来互联网上的文本数据还会不断增加,自动文本分类技术将在这些领域发挥越来越重要的作用。自动文本分类包括若干技术,比如文本预处理、文本表示、特征选择、特征抽取以及分类算法的选择等,其中文本表示与分类算法的研究是这些技术中的关键,它们将直接影响到自动文本分类的结果。目前大多数学者对文本分类技术的研究也主要侧重于文本的特征选择及抽取、文本表示以及分类算法的优化方面。在众多的文本表示模型中,基于词频-逆文本频率(TF-IDF)加权的向量空间模型(VSM)是一种主流的文本表示模型(简称VSM_TFIDF模型),它在学术界与工业界都有不错的表现,但该模型并不能很好的表示文本的语义信息,它无法将文本中特征词的上下文语义与句法信息考虑到模型之中。其次,常用的文本距离度量方式,比如欧氏距离、余弦距离等无法很好的衡量这类文本表示模型所表示的文本之间的相似度。针对以上问题,本文借助于Word2vec词向量将语义信息引入文本表示模型或文本距离度量方式之中,从而提升文本分类的效果。文中深入研究了Word2vec词向量的生成机制,包括它的两种训练模型(CBOW模型和Skip-gram模型),以及两套提升词向量训练效率的优化方案(Hierarchical Softmax和Negative Sampling)。在此基础上,本文将Word2vec词向量引入到对文本表示模型以及文本距离度量方式的研究之中,主要的工作包括如下2个方面:(1)提出了一种基于Word2vec词向量与VSM_TFIDF模型的多粒度多模型组合的文本表示模型——CombineTextVector。由于Word2vec词向量可以很好的表示特征词的语义信息,文中考虑将它与VSM_TFIDF模型结合起来,优势互补,提升文本表示的效果。文中首先将文本的类别信息嵌入TF-IDF加权公式,以提升加权因子的类别区分能力(我们将其命名为wTFIDF加权公式),然后与Word2vec词向量结合,构建了一种多粒度的文本表示模型Word2vec_wTFIDF,最后再将该模型与传统的VSM_TFIDF模型结合,构建CombineTextVector文本表示模型。为了验证新模型的性能,本文在复旦中文文本分类语料库上设计实验,并与多种主流的文本表示模型进行对比。实验结果证明,新模型均能取得较高的分类F1值。(2)提出了一种基于Word2vec词向量与EMD距离,并针对主题模型进行距离度量的方式——TopMD距离度量。文中首先分析了传统VSM_TFIDF模型和主题模型中常用的文本距离度量方式,针对文本间语义相似度无法很好度量的问题,将EMD度量方式与Word2vec词向量结合,提出了一种针对主题模型的TopMD距离度量方式。与常用度量方式相比,它能将更细粒度的特征词之间的相似度考虑到TopMD距离之中。为了验证所提方法的有效性,本文分别在中文和英文的语料库上进行实验,并与多种距离度量方式进行对比。实验结果证明,相对于传统方式,该方法可以提高主题模型的文本相似度度量效果。