论文部分内容阅读
随着在线社交媒体和电商的快速增长,诸如微博、朋友圈、以及商品评论等在线应用创造了大量的短文本,但如何高效地挖掘短文本中有价值的知识仍然是一项具有挑战性的工作。主题模型是一种高效的常规文本(normal texts)数据的建模方法,它通过发现文档级别的词之间的共现信息来挖掘文本的主题结构,,共现模式以很高的概率捕获了词对一起出现的趋势,然而,直接将传统的主题模型方法应用到短文本时,由于短文本固有的稀疏性,传统方法会遭遇共现模式不足的问题。此外,主题模型一般基于词袋假设(bag of words)表示文本特征,在该表示法中,词的上下文和顺序信息被忽略,使得文本表示中词的语义信息严重丢失。另一方面,由于社交短文本具有实时动态性,其数量大规模增长,为了在大规模社交文本上进行高效的主题建模,并捕获社交文本固有的实时特性,需要寻求高效的并行计算模型。针对上述问题,本文进行了探索并完成了以下工作:1.研究了一般文本的特征提取技术,提出一种文本特征构建方法(PSTR),该方法中引入频繁模式挖掘技术,是一种应用模式集合来构建文本新的特征空间从而增强文本的特征表示的方法。该方法充分利用了数据集自身携带的丰富信息,可以在语料库级别捕获词之间的语义关系和共现模式,进而弥补基于词袋假设的稀疏性带来的语义间隔和共现不足问题。2.基于上述工作,本文进一步研究了在新的特征表示下的主题建模方法(PSTR-LDA)。在新特征表示的模式空间中,基于一个模式中的构成词表达了同一个主题内容的假设,提出一个假设,即:一种模式构成词的主题指定同一性,即一个模式是由词构成的,其所有的构成词在主题推论阶段共享同一个主题指定。这种假定可以更加真实地反应词之间的主题关系。其后,本文采用吉布斯采样算法对模型的参数进行推论,在不同类型的文本数据集上进行了多种对比实验,结果表明本文提出的方法挖掘得到的主题具有更高的一致性,在多个度量指标上都优于传统的主题模型和被认为最优的短语主题模型。3.针对大规模的社交文本上的主题建模问题,研究了相关的并行LDA建模方法和能捕获主题动态特性的动态主题模型(DTM),并介绍一种可以在大规模文本集上进行动态主题建模的方法(DC-LDA)。该方法基于数据分解和后期聚类技术:首先,整个语料库基于时间属性被分解成独立的片段,每个片段都是整个语料的一个子片段;然后,分别对每一个子片段进行独立的主题建模,因为这些片段是独立的,因此可以使用高度并行的LDA方法。经过这一步得到所有片段上的主题集合,再使用聚类技术对这些主题进行聚类,完成整个语料上的主题挖掘。因为每一步都可以高效并行处理,因此DC-LDA可用以处理大规模的数据,且执行时间比传统模型少多个量级。在多个数据上的不同度量指标的结果表明,相比于DTM,该方法的执行时间更少并且能有效地捕获主题的动态特性。