论文部分内容阅读
随着网络技术在世界范围内的普及和发展,信息的传播与交互方式突破了传统时间与地域的限制。基于互联网的这一优势,新闻媒体逐步将其作为新闻报道传输与发布的重要平台。但是,网络信息的海量化、无序性和持续拓展性制约了新闻话题的有效识别、采集和组织。如何智能化、精确化地自动挖掘新闻话题并追踪其动态演变过程,逐渐成为网络信息处理研究领域的重要课题。话题检测与跟踪(简称TDT)即是针对这一课题提出的研究方向,它也为信息检索、数据挖掘和自然语言处理等技术提供了全新的多语言测试平台。本文首先针对TDT中的话题关联检测任务提出一种基于语义域语言模型的相关性判定方法。关联检测融会了篇章理解和语义分析等相关性判定的本原问题,对后续各项TDT任务的研究具有重要意义。语义域语言模型的核心思想是为报道建立凝聚于不同语义的结构体,借以从语义层面判定报道的相关性。该研究验证:基于语义对报道内容进行划分与组织有助于建立更为清晰易懂的话题模型。其次,本文针对TDT中的新事件检测任务先后提出基于子话题分治匹配和基于时序话题模型的检测方法。新事件检测侧重挖掘新闻话题的种子事件和构建话题初始质心,对识别话题的后续相关报道具有标杆式作用。因而,新事件检测是后续话题跟踪任务重要的辅助性研究。基于子话题分治匹配的检测方法继承语义域切分的思想,将话题构造为语义不同的多个子话题,并在话题与报道之间独立地匹配子话题相关性,最终基于相关子话题的分布概率判定新话题首次报道。在此基础上,时序话题模型将子话题的来源归因于不同相关事件的出现。为此,该模型将话题描述为对应不同时间的事件集,并基于“同时同事”原则高效地匹配话题与报道的相关性。此外,时序话题模型尝试基于时间表达式的分布属性,挖掘话题的种子事件和新颖事件,并基于这些事件对话题演化趋势的影响合理调整相关性匹配中的权重分配,借以提高新事件检测的准确率。再次,本文针对TDT中的自适应话题跟踪任务提出增量式的新颖性学习方法。话题跟踪的主要任务是在时序新闻报道流中识别特定话题的后续相关报道。其难点在于如何根据系统反馈自动地学习话题的演化趋势和漂移触发点,借以增强话题模型的跟踪适应性。增量式的新颖性学习方法继承了新颖事件在描述话题演化趋势中的重要作用,并在此基础上融入突发式新颖事件的挖掘与应用,从而进一步提高话题模型跟踪话题漂移趋势的能力。最后,本文提出基于二元近似关系的信息过滤技术。信息过滤的根本任务是屏蔽动态信息流中的噪声,借以更为精准地获取相关信息。本课题将信息过滤融入TDT研究体系的原因在于,针对时序新闻报道流的检测与跟踪过程普遍受制于噪声的干扰。为此,本文尝试借助概率模型的改进和数据分布特性的应用提高噪声过滤性能。其中,基于二元近似关系的过滤技术侧重利用相关信息与噪声异同的分布特点屏蔽概率模型中的噪声特征。总体而言,本文将TDT中的主要任务整合为相互衔接的研究架构,逐步探索有效识别、挖掘和组织新闻信息的新方法。其中面向所有任务的研究在改进现有统计模型的基础上,尝试基于新闻信息的独有特点设计技术路线,并取得了良好效果。尽管如此,本文的工作仅是针对TDT领域的前瞻性研究,该领域仍然包含众多极具挑战性的课题等待人们进一步探索。