论文部分内容阅读
主题模型是一种挖掘文本语义信息的有效方法,属于文本挖掘的研究范畴,被广泛地应用于信息检索、自然语言处理等多个领域。经过近二十年的发展,该领域已产生了一系列较为成熟且适用于长文本的模型与算法。然而,随着在线社交网络的兴起,越来越多的数据以短文本的形式出现,为主题模型的研究带来了新的困难和挑战。首先,每个短文本文档仅由很少的单词构成,上下文信息匮乏,产生了稀疏性问题,导致长文本主题模型失效。因此短文本主题模型的设计与优化成为了一个新兴的研究分支。已有工作一般从数据层与模型层的角度进行改进,通用性较差、语义信息利用不充分,存在可改进和提升的空间。其次,传统主题模型一般使用一组一元单词描述主题信息,表述有歧义、阅读体验较差。因此主题信息的表示也是一个重要的研究问题。已有工作一般使用一组词组描述主题,但是大部分工作存在模型复杂度高以及通用性差的不足。因此,有必要展开提升主题可读性的研究。针对短文本的稀疏性问题,本文结合由词嵌入模型、语言模型等提供的语义信息,从两个方面展开模型改进的研究:基于单词建模主题以及基于单词对建模主题。针对主题的可读性问题,本文结合丰富的语义信息,从主题词组生成的思路展开研究。具体而言,本文主要基于上述思路开展了三项工作,提出了四个模型,主要研究内容如下:1.构建引入语义信息的伪文档在短文本场景下,如果直接基于文档建模主题,由于缺少上下文信息,得到的主题质量很低。一种策略是基于词汇表中的每个单词建模主题,使用单词的主题概率分布间接推算出原始文档的主题信息。如何学习每个单词的主题,是该策略的重要研究内容。本文设计了基于伪文档的主题模型SEMIPS,为每个单词构建描述其语义信息的伪文档,并将伪文档的主题概率分布等价为目标单词的主题概率分布。在伪文档的构建过程中,SEMIPS模型引入了由词嵌入模型提供的语义信息,将单词间的语义相似关系作为伪文档构建的依据。通过模型性能评估、模型简化测试及word2vec词向量效用等实验,展示了SEMIPS模型能够有效地解决短文本的稀疏性问题。2.引入全局单词对建模主题基于单词建模主题需要构建伪文档,这一过程容易引入噪声,而基于语义相近单词对建模主题则能避免这一问题。其主要思想是:语料中的单词对相当丰富,可以使用单词对的主题信息间接推算出原始文档的主题信息,从而解决短文本的稀疏性问题。这一思路假设两个语义相近的单词在建模主题时有相同的概率生成同一个主题,因此已有工作把局部共现的单词两两抽取出来生成单词对用于训练。但是,仅使用局部共现的关系并不充分,例如互为近义的两个单词往往很少共现,因此本文提出了GloSS模型,通过引入单词间的语义相似关系,从全局语料中挖掘出语义相近单词对,从而提高主题质量。通过模型性能评估、对比不同词嵌入模型效用等实验,展示了引入全局单词对的必要性、使用语义信息的有效性。3.引入单词间量化关系建模主题基于单词对建模主题是一种有效的策略,但已有工作在建模主题时仅依赖单词对的共现频次而忽略了单词间的相关性,因此本文提出了RIBS模型,通过使用单词间的量化关系直接影响模型建模过程。RIBS模型以先验知识的方式引入这种量化关系,使语义更相关的两个单词有更高的概率生成同一个主题,先验知识包括:单词间的生成关系和单词的重要度。其中单词间的生成关系通过使用循环神经网络训练语言模型得到,而单词的重要度则通过逆文档序体现。在此基础上,本文还利用单词间的生成关系,提出了RIBS-Bigrams模型,该模型在主题信息生成后,结合主题词组生成算法,以词组的形式来描述主题。这一工作能够在解决短文本稀疏性问题的同时,提高主题的可读性。通过主题评估、文本表示等实验,展示了模型的有效性;通过探索不同语言模型质量对主题模型的影响,提供了结合NLP算法优化主题模型的新思路。