论文部分内容阅读
在机器学习和自然语言处理领域中,语义模型(Topic Models)是一类基于统计理论的概率模型,它一般通过构建出“词汇—主题—文档”来发现语料库(文档集合)中的潜在的主题(语义)。其中,最具代表性的语义模型有PLSA语义模型和LDA语义模型。 近年来,作为自然语言处理领域的一大分支的语义模型在原有的PLSA语义模型和LDA语义模型的基础上得到了极大的发展。例如改进的PLSA、LDA语义模型可以处理分类问题和判断文档集合中任意两篇文档的相关性等。在应用上,如今的语义模型已经被广泛用于信息抽取、自然语言处理、文本分类、社交网络、信息检索、自动文摘等领域。本文在层次关系模型(Hierarchical Relational Models)的基础上提出了能处理二类分类问题和回归问题的基于文档主题相关性的LDA有监督模型。该模型可以直接应用到个性化文档推荐和个性化检索领域中。 本文的主要工作总结如下: (1)本课题首次提出了基于文档主题相关性的LDA有监督模型。本课题在LDA语义模型的基础上,加以适当的改进,将多类分类问题和回归问题结合到LDA语义模型中,从而提出了能在语义层面进行文档间相关性计算的训练模型; (2)本课题将提出的基于文档主题相关性的LDA有监督模型用于个性化文档推荐的模拟实验中。本课题把原有的用于排序学习的标准文档数据集OHSUMED运用于个性化文档推荐的模拟实验中。实验证明,本课题提出的方法是有效的; (3)本文提出了采用LDA语义模型来计算文档之间的相似性,且用于传统的列表级排序学习中。本文在前人考虑了文档之间相似性的排序学习的基础上,加入了LDA语义模型计算的文档间的相似性,用语义的信息来影响排序学习,从而获得最终纳入了语义信息的排序函数。在实验中,将纳入语义和词汇相似性的ListMle、ListNet分别与仅考虑词汇相似性的ListMle、ListNet和没有考虑任何相似性的原始 ListMle、ListNet做为对比实验,最终在NDCG@n的评价准则下,我们采用的方法显著优于原有的方法。