论文部分内容阅读
近年来,随着深度学习技术的发展,文本挖掘作为软件工程学科的重要子领域,正在逐步向智能化的方向过渡。然而,受传统信息处理技术及挖掘方法的限制,其智能化进程的推进目前仍较为缓慢。尤其自Web2.0时代以来,大量的信息以文本的形式发布在互联网上,如新闻网站中的新闻报道、在线百科中的百科词条、社交软件上的推文及购物软件中的商品评论等。这类文本中往往包含大量的主题、商品属性和事件等信息,然而人工地阅读并分析语料库中的文本需要巨大的人力消耗且无法适应语料规模的日益增长。因此,设计可以从海量非结构化的无标注文本中自动地挖掘出其中隐含主题、事件等的模型将有助于提高文本挖掘领域的智能化程度并进一步推动整个软件工程学科由信息化向智能化的转型。主题模型旨在从文本语料中进行无监督地知识发现,它作为语义模式的常用挖掘工具为无监督地理解文本内容提供了重要的技术基础且已被成功应用于众多软件工程领域的任务(如信息抽取、文本挖掘等)。然而,传统主题模型仍面临如下挑战:1)传统主题模型往往仅利用文本中词与词之间的共现关系建模且难以向建模过程融入外部知识;2)传统主题模型求解过程往往采用变分推理、吉布斯采样等近似求解策略,此类方法需要复杂的数学推导且不易进一步拓展;3)多数传统主题模型挖掘出的主题之间是相互独立的,并没有对主题间关系进行准确的建模,因而难以学习到主题间的关联度且不利于人们对文本语料进行宏观上的理解。为解决上述挑战,本文引入以基于神经网络的词嵌入学习方法获得的词向量为外部语义知识,以加权波利亚球罐机制和生成式神经网络为主要学习框架设计主题模型并从文本语料中挖掘高质量的主题、商品属性及事件。具体地,本文的主要工作及创新如下:(1)针对传统主题建模方法仅依靠词共现信息而导致的主题质量不高的问题,本文提出了一种基于加权波利亚球罐机制(WPU)的采样策略并将其融入隐狄利克雷分配的学习框架进而提出基于加权波利亚球罐机制的主题模型(WPU-LDA)。通过引入基于神经网络的词嵌入模型得到的词向量和基于WPU机制的采样策略,WPU-LDA模型在求解过程中动态地考虑单词与不同主题之间的语义相关性,从而将语义相关的词更好地聚集到了一个主题中提升了主题的抽取质量;(2)针对传统建模方法难以求解且不易于应用拓展的问题,本文首次在生成对抗网络的学习框架下提出了一种基于对抗训练的神经主题模型(ATM)。ATM模型利用一个生成器网络建立了由文档-主题分布到文档-词分布之间的单向映射,并利用一个判别器网络来判断其输入文档的真假。判别器网络的输出信号在对抗训练过程中可以指导生成器的学习从而使得其可以挖掘出隐含在文档中的主题信息。同时,不同于传统主题模型,ATM模型还能为词表中每个单词提供低维的语义表示向量;(3)针对传统主题建模方法求解困难及ATM模型难以为文档提供主题分布推理、不易应用于下游任务的问题,本文在双向对抗生成网络的学习框架下提出一种基于双向对抗训练的神经主题模型(BAT)。该模型在ATM模型的基础上,引入一个由文档-词分布到文档-主题分布的编码器网络从而可以为新文档文档-主题分布进而用于文本聚类等下游任务。此外,为进一步提升主题挖掘质量并建模主题之间的相关性,本文在BAT模型的基础上提出了基于双向对抗训练的高斯神经主题模型(Gaussian-BAT)。该模型在生成器网络中将每个主题建模为词向量空间内的多维高斯分布进而融入了词向量中的外部语义知识。同时,Gaussian-BAT模型利用与主题对应的高斯分布之间的关系完成了对主题关系的建模与挖掘;(4)针对传统主题建模方法挖掘的主题质量不高、模型求解困难且难以准确捕获主题间相互关系的问题,本文基于变分自编码器的学习框架提出了一种变分高斯神经主题模型(VaGTM)。该模型在解码器中将每个主题建模为词向量空间的多维高斯分布并将外部语义信息融入了解码过程。同时,利用解码器中高斯分布之间关系完成了主题相关性的建模。此外,由于一个主题的主题词对应的词向量并不完全服从一个多维高斯分布,为解决这一问题,本文在VaGTM的基础上提出了基于可逆转换的变分高斯神经主题模型(VaGTM-IP),该模型引入了一个可逆转换将词向量转换为更适合主题建模的单词表示并进一步提高了主题挖掘的质量;(5)最后,针对传统主题建模方法不易于应用拓展的问题,同时也为了验证基于对抗训练的神经主题模型在应用层面具有易扩展性。本文提出一种基于对抗训练的神经事件模型(AEM)用来从在线事件文本(推文、新闻报道)中无监督地抽取热门事件。该模型将事件定义为四元组<实体、地点、时间、关键字>且其中每个元素使用一个主题来表示。为挖掘出在线文本中的事件,AEM模型利用一个生成器网络建立了由文档-事件分布到文档-实体分布、文档-地点分布、文档-时间分布及文档-关键字分布的单向映射函数,并利用判别器网络提供的输出信号来指导生成器网络及判别器网络的学习。通过对抗训练,生成器网络可以从文档中挖掘出与各个事件相关的实体主题、地点主题、时间主题及关键字主题从而完成事件的抽取。此外,由于GPU的加速,AEM模型较传统事件抽取模型有更高的执行效率。