论文部分内容阅读
主题模型(Topic Models)是一种可以从大规模离散数据集中自动提取其中隐含语义主题的生成概率模型。自2003年提出以来,主题模型逐渐成为机器学习、自然语言处理、机器视觉领域中的重要研究课题,并且在文本挖掘、观点挖掘、社交网络分析、视频场景理解、蛋白质结构分析、金融数据分析等领域获得了广泛的应用。然而,随着待分析语料库规模越来越大,主题模型分析出的主题数目也越来越多,主题模型产生的结果越来越难以利用。本文针对主题模型的发展、演化以及各种模型的特点进行了深入、系统的探讨和综述,在此基础上,结合机器学习、信息检索以及自然语言处理中的相关技术,对有查询词情况下主题排序和没有查询词情况下的主题排序问题进行了研究,并且将提出的算法应用于学术论文推荐系统和多文档自动文摘中。本文的创新性研究成果可概括如下:1)在对主题模型进行深入系统的综述,并比较主题模型与机器学习中其他学习范式的特点后,提出了主题模型研究中如何在大量主题中突出重要主题,忽略其他主题的问题,并且提出了排序主题模型解决这个问题。2)提出基于关联关系的排序主题模型算法,该算法可以利用主题之间的各种关联关系,在没有用户提交查询词的情况下,利用主题间关系重新排序主题。该算法可以解决在大规模语料库包含过多主题的情况下,在没有任何先验信息和用户提供的信息的情况下,依照主题的重要性程度排序,可以有效提高主题特征的可用性。将基于关联关系的排序主题模型应用于多文档自动文摘,通过对比经典的和基于主题模型的多文档自动文摘算法,实验结果表明,关联关系排序主题模型可以凸现重要主题特征,大大提高多文档自动文摘的效果。3)提出基于查询的排序主题模型,可以在用户提供查询词的情况下,依据用户的意图重新组织语料库中的主题。提出利用主题相关性指标排序主题,有序主题可以提高主题特征的可用性。将本文提出排序主题模型应用于学术论文推荐系统中可以提高推荐系统的惊喜度,基于查询的排序主题模型不但能够找到与用户提交的查询相似的主题,而且还能够找到与查询语意相似的主题,这样在保证推荐精度时也能提高推荐的新颖性,从而提高推荐的惊喜度,通过对比实验证明,基于本文提出算法的推荐系统有较高的惊喜度和鲁棒性。4)将脑认知科学中的行为实验技术与功能性核磁共振成像技术引入主题模型研究中,通过上述两种方法研究人在归纳思考抽象主题过程中的认知活动和脑激活区域,取得了初步成果。该成果有助于主题模型的进一步深化研究。