论文部分内容阅读
隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是在文本挖掘领域一种常用的主题模型。LDA及其变体已广泛应用于发现文本文档中的潜在主题。然而,在传统LDA生成的主题中,部分主题倾向于包含一些与该主题不相关的词,我们称之为“杂质词”。这种“杂质词”将导致LDA生成主题的可解释性变差,最终将会产生低质量的主题聚类结果。提高主题质量的一种可能方法是减少主题中这些“杂质词”的数量。然而,当前只有少量工作探究这种“杂质词”产生的原因,也较难找到一个合适的解决方案。在本论文的工作中,我们将探讨这些“杂质词”产生的原因。经过实验观察,我们发现文档中的某些词倾向于向主题中引入“杂质词”。我们还发现这种词有着明显的特点:它们分散在许多主题上,从而这导致了它们对不同主题的分辨能力较低。在我们的论文中,我们把这种词称为“低主题区分度词”。也就是说,这种“低主题区分度词”是LDA生成的主题中产生“杂质词”的一个重要的原因。在本论文中,我们提出了一个称为TWLDA的新模型。该模型提供了一种方法来找出这些词,并降低他们对LDA的结果的影响。首先,我们使用基于信息熵的权重计算方法来为“低主题区分度词”分配较低的权重。接着,利用得到的权重,我们提出了一种方法来降低吉布斯抽样(Gibbs Sampling)过程中低权重词(也就是“低主题区分度词”)对LDA结果影响。该方法可以通过减少文档中“低主题区分度词”的数量,从而降低其引入“杂质词”的能力,最终达到减少“杂质词”数量的目的。然而,我们提出的TWLDA是基于标准LDA的变种模型,其无法应用到其他LDA的变种上。我们将TWLDA拓展为一个称为TWFW(Term Weighting Framework)的算法框架。该框架可以被应用于所有LDA的变种模型中。我们的实验结果表明,所提出的框架可以显著提高LDA及其变种模型的性能。最后,我们将TWFW应用到一个实际的工程项目中,并表明其在工程应用领域也有较好的效果。