论文部分内容阅读
近年来,网络新闻服务迅猛发展。分类、聚类、摘要、检索、推荐等文本挖掘技术得到了广泛应用,以帮助用户筛选新闻文档,为用户提供友好的阅读体验。然而,现有技术关注在文档层次,但认知科学认为人们是以“事件”为单位体验和认知世界的,用户真正关心的并不是新闻文档本身,而是新闻中的事件、参与事件的人、机构等实体。因此,急需一种事件级的新闻处理技术,能够从新闻文本中抽取出事件和参与事件的时间、地点、人物等实体,识别出实体间的关系,在事件粒度以及语义层次理解新闻。这种能够让计算机理解新闻报道的内容,代替人完成事件的检测、提取与集成任务的技术,对缓解“新闻信息过载”,推动对象级信息检索、事件语义层次新闻服务的发展具有重要意义。在这一背景下,本文针对中文新闻事件语义信息的表示、单个新闻文档中关键事件的识别和事件5W1H语义信息的自动抽取三个紧密相关的问题进行了研究。
首先,在自然语言处理、信息检索和信息抽取领域中都有针对事件的研究工作。然而,不同领域中的“事件”概念有很大差别,对使用何种模型表示事件也没有一致的看法。针对这一问题,本文结合研究目标,给出了新闻事件的定义,并提出一种基于本体的新闻事件模型,用于描述单个新闻文档中的关键事件、语义要素以及它们之间的关联。目前已有多种事件表示模型,包括MUC(MessageUnderstanding Conference)的事件模板,ACE(Automatic Content Extraction)的事件结构体,多媒体事件模型E,以及基于本体的事件模型ABC、PROTON、Event-Model-F等。在对上述模型调研分析的基础上,本文针对单个新闻文档中关键事件的抽取和事件之间的关联,设计了一种基于本体的新闻事件模型NOEM(News Ontology Event Model)。NOEM利用事件的类型、时间、空间、结构、因果、媒体六个方面特征描述新闻事件的5W1H(Who,What,Whom,When,Whereand How)要素。与现有事件模型的比较显示,NOEM具有较好的形式化知识表达、应用集成和扩展能力。
其次,目前中文事件抽取主要针对“原子事件”和“主题事件”,在句子和多文档两个层次展开研究。但“原子事件”抽取粒度过细,实用性不足,“主题事件”粒度过粗,事件信息不精确。因此,本文提出在单文档中通过提取主题句以获取关键事件信息的思想和方法。在单文档层次抽取事件,能够添补句子层次和多文档层次事件信息处理之间的鸿沟。一篇新闻报道中通常涉及多个事件,如何识别其中的关键事件是一个重要问题。论文根据新闻的体裁特点,分析了新闻报道与事件的关系,以及新闻标题在内容、形式和语言方面的特征,提出利用标题的提示性信息提取主题句来描述新闻关键事件的TBKEE(Title Based Key EventExtraction)算法。TBKEE首先对新闻标题按信息含量进行分类,然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明,该方法能够准确提取新闻主题句,为进一步抽取事件语义信息打好了基础。
最后,针对中文新闻事件识别、分类、语义要素识别等事件抽取任务进行了研究。事件抽取是信息抽取领域一个重要的研究方向,其目标就是要把人们感兴趣的事件以结构化的形式呈现出来,如什么人,什么地方,什么时间,做了什么事。本文基于语言学资源、命名实体(NE,Named Entity)识别和机器学习技术,提出事件5W1H语义要素的识别与抽取算法CNSEE(Chinese News SemanticElement Extraction)。CNSEE由一系列相关算法构成,具体包括:基于事件触发词表与SVM分类器相结合的事件类型识别方法;基于层叠状态机的时间表达式识别与规范化方法;基于条件随机场(CRF,Conditional Random Field)的中文名词短语(NP,Noun Phrase)识别算法;基于事件触发词配价信息和语法-语义规则的事件论元(事件的施事、受事、与事等角色)识别方法。上述方法能够有效提取事件语义要素五元组