论文部分内容阅读
主题事件挖掘和演化分析是将人们感兴趣的事件以结构化的形式呈现出来,抽取事件发生的关键信息,如时间、地点、人物等,并进行整理和分析以发现事件之间的关联关系和发展形势,使关注者能够更明确和快速地了解事件。主题事件的挖掘主要包括时序分析、信息检索、自动文摘、话题检测与追踪、事件检测、突发检测、异常点检测等。前期基础工作需要进行数据采集,即获取事件的相关数据并进行结构化或半结构化的处理。本文将从句子到篇章,再到多篇章展开研究,处理的对象是面向主题的事件,主要工作就是对主题事件进行深层次的理解,也就是面向多篇文档的主题事件抽取和事件分析。主题事件抽取包括面向句子或短语的事件信息识别,包括时间、地点、人物、浅层语义分析等;面向文档的事件信息识别,主要包括时间、关键动作、地点、人物等,以及面向多文档的主题事件的信息融合。事件分析包括子主题的动态演化分析、人物影响力分析和异常点检测等。本文涵盖了主题事件挖掘的四个要点,且在不同的研究问题中各有侧重。(1)研究主题事件的信息抽取和时序特征。单纯的以句子为单位的事件论元并不能反映主题事件的发生情况,本研究以主题事件为研究对象,同时具有动作意义的元事件又是组成主题事件的必要单位,包含句子范围内的事件抽取,篇章内的事件抽取,多篇章的事件抽取。本文提出了一个面向主题事件的时间识别模型,将面向句子或短语的时间识别转化为面向篇章的时间识别,从而识别主题事件片段的时间。该模型采用参考时间动态选择机制对时间表达式进行规范化。通常事件元素与动词所支配的论元成分有一定的对应关系,因此本研究中结合事件抽取和浅层语义分析,将事件元素与语义角色标注相对应,改善了纯粹基于关键词或静态参考时间机制的主题事件片段的时间识别的性能。(2)基于动量表示和股票价格分析指标进行人物影响力分析。本研究将结合事件的要素以及突发检测理念来研究人物在整个事件发展过程中的影响力。运用物理模型来定义和构造人物影响力的动态性,结合人物的社会要素,而不只是靠到达率来分析,避免了人物停用词出现频率过高的情况。利用股票分析指标来特征化和分析人物影响力的动量特征,同时考虑多个平滑异同移动平均线(Moving Average Convergence Divergence,MACD)技术指标的联合作用,避免了某个指标高而没有突发状况的突发检测技术。以此来分析事件中的要素,以及这些要素在主题事件发展过程的参与作用。(3)研究动态增量式策略在主题事件的子主题演化分析中的运用。传统的主题探测与追踪是实现对新闻媒体信息流中新话题的自动识别以及对已知话题的动态跟踪。这些话题可能是没有什么关联的独立话题,或者可能并不是对同一个事件的描述。本研究根据子主题演化作为动态数据流的特点,结合Single-Pass聚类方法、兼类思想以及动态增量思想,进行子主题的探测与追踪,以实时地跟踪事件发展的动态。并根据子主题的时序性和动态性,对算法在阈值选择,相似度平滑和时间要素方面进行了分析。(4)研究统计理论和模糊集理论协同作用的异常点检测问题。异常点检测也是一种基于时序的分析,它考虑了数据流的时序性和动态性。异常点是数据集中与其他数据显著不同的数据,有些异常点可以被认为是噪声,而有些却是关键信息,比如事件发展中的异常点往往揭示了事件的关键时期或转折点。异常点检测技术通常具有需要大量的标注数据,数据的统计分布特征未知,需要多个参数,控制限确定困难和数据本身的模糊性等问题。本文针对这些问题,基于统计过程控制理论定义了异常点和异常度的概念,根据异常点本身是个复杂概念的特征,运用模糊理论和统计方法相结合的技术进行事件中的异常点检测。该方法可以不需要任何的标注数据,并且是和分布无关的,通过加强式模糊化过程和优化模型进行参数的确定。