论文部分内容阅读
互联网已成为当前人们获取新闻的一个重要途径。将已有各种新闻报道按话题进行分类,进而追踪特定话题的新报道返回给用户,不仅可以有效节省用户获取相关新闻的时间,也提供了一种基于话题对网络新闻数据进行有效组织的方式,有着广泛的现实需求。为达成此目的,需要解决两个关键问题:其一是如何将初始呈现给用户的新闻报道自动地依据其所涉及话题的异同进行分组,其二是如何自动判断新出现的报道是否属于某个已知话题或属于一个新话题。这两个问题分别是话题识别与话题追踪。对话题识别与追踪的研究已经有近二十年的历史,取得了不少进展,但是仍然存在一些问题。例如,话题识别任务中如何确定话题数量的问题,话题追踪任务面临的数据稀疏问题、话题漂移问题以及话题偏离问题。本文针对这些问题,分别对话题识别技术和话题追踪技术展开研究,在Dirichlet过程混合模型(DPMM)这个统一的模型框架下提出了一系列有效的解决方法,最后,通过综合这些解决方法提出了一个能满足节省用户新闻获取时间、对互联网新闻数据进行基于话题的组织等应用需求的系统方案。论文的主要工作和研究成果如下:(1)针对话题识别任务在先验知识缺乏时难以预先确定话题数目的问题,将DPMM引入话题识别研究中,提出了一个基于DPMM的话题识别模型。该模型无需预先给定话题数目,而是可以根据输入的新闻报道而自动确定。模型假设任一报道都对应一个话题分布,并将其中具有最大概率的话题作为这个报道的话题标签。实验表明,基于DPMM的话题识别模型可以得到比已有方法更好的识别性能,最低识别代价仅为0.0981,比基于传统聚类算法的话题识别模型降低了50%以上。(2)提出了一种考虑上下文信息的Gibbs抽样(C_Gibbs)方法,该方法在对某个词产生抽样概率时同时考虑其上下文中的其他词,以建模同一报道中的词间相关性。实验表明,与Gibbs抽样方法相比,基于C_Gibbs抽样方法进行参数推导可以大幅度提高识别系统的性能。(3)提出了一个能有效结合待测话题信息的DPMM进行静态话题追踪。模型在基于Gibbs抽样进行参数推理时融入待测话题信息,得到报道和各个待测话题的相关度。同时,对多次Gibbs抽样结果进行投票确定最后的话题追踪结果。实验结果表明,该模型只需要少量的种子报道,就可以显著提高话题追踪的性能,最低追踪代价仅为0.0723,比基于一元语言模型的话题追踪模型降低了45%。同时,该投票方法也保证了性能的稳定性。(4)针对话题追踪任务中存在的话题漂移问题以及已有自适应方法中存在的话题偏离现象,本文在基于DPMM的静态话题追踪模型的基础上,提出了一种新的自适应话题追踪方法。该方法的基本思想是在追踪过程中考虑追踪反馈,并在话题、报道相关度计算过程中为追踪反馈赋予一个M_reli参数,以控制不相关报道反馈带来的误差。实验结果表明,该方法不仅可以在一定程度上解决话题漂移问题,并可以有效地抑制已有自适应算法中的话题偏离现象。该模型最低追踪代价仅为0.0677,比静态话题模型降低了6%。(5)综合本文提出的一系列话题识别和追踪技术,设计了一个可以满足前述应用需求的话题识别与追踪系统方案。该系统首先利用话题识别和话题追踪技术将新闻报道流以报道簇为单位组织起来,每个报道簇对应一个话题,同时获取报道流中描述话题内容的标签,并将相关报道和标签同时呈现给用户,达到节省用户新闻获取时间、并基于话题对互联网新闻数据进行组织的目的。