论文部分内容阅读
如何在海量文本环境下提供有效的信息服务,已经成为国内外学术界与工业界关注和研究的重点问题。为了帮助人们从语义层面上快速理解文本内容,各种主题模型被相继提出。同时,文本之中各主题的变化趋势与内容演变过程也越来越受到人们的关注。学术论文作为科学研究发展过程中最重要的知识载体,其主题发现与主题演化分析对于研究人员了解学科研究方向、理清研究思路有着非常重要的意义。 论文在前人主题模型与主题演化相关研究的基础之上,针对学术论文的特点,着重探讨了结合作者兴趣的主题建模与基于作者合作关系的主题演化等问题。本文的主要工作包括以下三个方面: (1)介绍了主题模型与主题演化研究现有的方法与现阶段所面临的问题,并对各方法的切入角度、模型建立以及求解算法进行了论述。为后续的研究与讨论提供了一个比较完善的理论框架。 (2)将作者信息纳入主题空间,提出了作者对于主题的兴趣这一概念,并给出了数学定义和计算方法。将作者兴趣以正则化项的形式融入主题模型,进行了模型的理论设计与近似求解。在ACM会议论文数据集和CiteSeer数据集上进行了实验,结果表明结合作者兴趣的主题模型能更好地描述文档主题。 (3)建立科研合作网络,将文档主题之间的演化置于合作网络之上,提出了结合科研合作关系的主题演化分析算法。基于(2)中提出的主题模型,对文档数据集进行主题抽取,再按时间段划分,利用作者的合作关系进行主题之间的转移概率计算。实验表明,本文所提出的方法能够较为准确地反映出主题的演化过程。