论文部分内容阅读
话题建模旨在于挖掘出文本资料中的潜在话题,并利用这些话题对文本进行表示。作为一种更深层次的文本理解方法和更富有表现力的文本表示方式,话题建模在文本分类、文本聚类、信息检索等文本挖掘任务得到了广泛的应用。然而,随着文本数据规模的飞速攀升,传统话题建模方法计算复杂度高、内存消耗大这一缺陷已成为制约它们在实际问题中发挥作用的瓶颈。对传统话题建模方法进行并行或分布式处理成为了一个热门的研究方向。但是现有的并行或分布式话题建模方法并不能从根本上解决话题建模过程中内存消耗过大这一问题,在应用于实际大规模问题时往往需要借助一些过于严厉的预处理手段,例如极大程度缩减文档集合所对应的词表规模。如何在大规模数据上有效并且高效地实现话题建模仍然是当前话题建模方法研究中亟待解决的问题,同时也是最大的挑战。 本文研究大规模文本数据上的话题建模方法。具体地,本文提出了三个完全可分的大规模话题建模方法,包括正则化潜在语义索引(RLSI)、在线正则化潜在语义索引(Online RLSI)和分组正则化潜在语义索引(Group RLSI)。RLSI以矩阵分解作为话题建模方法主体,同时加上特定正则化因子以满足不同建模需求并控制模型复杂度。RLSI的优点在于它以矩阵分解作为模型主体,从而自然地继承了矩阵分解方法完全可分、高度易并行的特性,极易实现并行或分布式处理。实验表明,RLSI的话题建模效果与现有话题建模方法相当,但是经过简单的分布式处理之后,RLSI能够比现有分布式话题建模方法更加高效地处理更大规模的数据,真正意义上实现大规模数据上的话题建模。Online RLSI是RLSI的在线学习拓展,其核心思想是按照时间顺序对文本进行分批处理。在线学习使得在整个处理过程中只有少部分数据需要载入内存进行运算与分析,从而达到进一步降低RLSI内存消耗的目的。同时,在线学习能够敏感地捕捉文本内容随着时间的变化情况,提取出的话题也具有相应的动态特征。实验表明,在内存有限的情况下,Online RLSI能够比RLSI扩展到更大规模的数据。同时Online RLSI能够敏感地捕捉到话题随着时间的变化情况,有效实现动态话题建模。Group RLSI是RLSI的又一拓展,其核心思想是利用文本既有的类标签信息对文本进行分组,组与组之间尽量独立进行处理。这种分组处理方式可以将原始RLSI中的大规模问题拆解成一系列小规模问题独立求解,从而达到进一步提升RLSI计算效率的目的。同时,分组处理使得提取出的话题粒度更小,能够更加细致地反映文本的局部特征。实验表明,在同等数据规模下,Group RLSI的计算效率远高于RLSI,并且随着话题总数的增加,这种优势越发明显。同时,Group RLSI提取出的话题能够更加细致地刻画文本的局部特征,是一种更加准确的话题建模方法。