论文部分内容阅读
主题模型揭示了文档集合的隐藏主题结构,并通过一组主题找到每篇文档的高度压缩表示。实际上,如果将主题看成文档集中离散的语义信息,而主题建模过程则是将文档集合映射到离散的语义信息之上。然而,这种离散化的主题并不能精确表示文档的语义信息,例如无法度量文档集中各个主题之间的关系,而且无法直接确定的主题个数。针对于此,本文将PCA与贝叶斯非参数方法结合,首先,提出贝叶斯非参数PCA(BNPP)模型,使其应用于单一数据集的降维,并挖掘出数据集的隐含类别信息;其次,为了更好地对文档集进行主题挖掘,本文将文档集看作多组数据的组合,利用分层框架,提出基于BNPP的主题模型(BNPP-TM),该模型将文档集从原始样本空间投影到语义空间中,使用连续的语义空间来代替传统主题模型中离散的主题。本文的工作主要包括四个方面:1)针对传统无监督降维方法应用于高维样本数据的降维时,忽略了样本的隐含类别信息,本文提出基于贝叶斯非参数的PCA模型。BNPP模型在PCA方法基础上,增加了贝叶斯非参数先验知识,来挖掘样本的隐含类别信息;2)为验证BNPP模型的可行性,提出BNPP模型的吉布斯采样算法。使用CRP方法来构造模型中贝叶斯非参数成分,并使用吉布斯采样方法对模型进行参数推理。实验结果表明,该算法不仅能够有效地对样本数据进行降维,而且能够捕捉原始样本的类别特征;3)针对传统主题模型中,各个主题之间关系无法度量以及主题的个数无法直接确定的问题,本文提出基于BNPP的主题模型。BNPP-TM模型是将文档集建模为多组数据的组合,使用分层狄利克雷过程作为BNPP中隐含变量的先验分布,来构建分层模型,更好地挖掘文档集的隐含主题结构;4)为验证BNPP-TM模型的可行性,提出BNPP-TM模型的变分推理算法。通过使用截棍构造,BNPP-TM模型能够有效使用变分推理方法求解模型参数。实验结果表明,该算法能够将文档集投影到语义空间中,实现文档主题的提取,从而一方面能够度量文档集各个主题之间的关系;另一方面也能够更加准确地确定主题的个数。