论文部分内容阅读
本文主要研究了主题检测与追踪技术在中文新闻报道方面的应用。主题检测与追踪技术的研究始于1997年,是一门新兴的信息处理技术,它的研究主要涉及了自然语言处理、信息检索、信息过滤、人工智能、机器学习等多个领域,是一个跨学科跨领域的综合性课题,围绕着信息流当中的主题信息,进行检测、跟踪、分析关联性等智能处理,最终目的是构建高效率、高准确度的实用信息追踪系统。
在本文中,我们首先介绍了主题检测与追踪技术的相关概念,以及近年来的发展动向。然后,我们讨论了一种叫做LDA的语义模型,它是一种产生式模型,通过概率规则来表示主题信息。我们介绍了该模型和其他相关的TF-IDF、LSI、pLSI模型,比较了它们的基本思想以及差异。LDA模型主要引入了一个新的结构层:文集.主题层,通过Dirichlet分布来描述各个主题之间的分布情况,把样本数据的离散分布变为连续概率分布,因此能够有效平滑训练集数据之间的非系统性差异,克服之前几个模型当中存在的零概率问题。
本文还对LDA模型作了进一步的改进。改进模型主要利用了句子间可置换的这一性质,并且假定同一个句子当中的词语应该表达相同的主题。基于此项改进,我们还提出了基于VB-EM的近似算法来求解模型的推演问题和参数估值问题,并作出数学推导。最后,我们按照改进后的语义模型,开发了一个主题追踪的实验系统。我们在文中讨论了系统的结构以及处理流程。我们应用了新浪网上的中文新闻来测试我们系统的有效性,实验证明了我们的系统准确率和召回率达到了一个相对满意的水平。