论文部分内容阅读
在自然语言中,特别是在新闻事件中,人们比较关心的是事件的内容,而在一个事件中,时间是一个关键的因素,现在网络上充斥着大量的新闻信息,当人们需要了解发生了什么事,什么时候发生,以及它们之间存在怎样的联系,才发现这要花费大把的时间。因此,时间和事件的推理引起了自然语言处理的新的兴趣,在自然语言处理方面具有非常重要的意义,包括命名实体识别和自然语言理解等。时间信息在自然语言处理领域也有很广泛的应用,包括文本理解,信息抽取、信息检索、问答系统、主题发现和跟踪、文本摘要和数据挖掘到机器翻译等。因此本文以时间信息处理领域中一个重要方面——时间规范化作为研究目标。本文的研究重点是新闻文本中的时间规范化,其任务是将新闻中的时间信息定位到时间轴上,并用一种标准的格式表示出来。时间规范化任务,是识别事件-时间的映射关系,识别事件的时序关系的基础。1.确定需要规范化的时间类型。本文参考ACE时间标注规范,对中文时间信息重新进行了定义和分类,对需要规范化的时间进行了确定和总结。2.提取时间识别模式。根据新闻语料中时间表达式的构成特点,我们总结了提取时间表达式的几条模式:包括发表时间的模式,报道时间的模式以及句子中所有需要规范化的时间类型的模式。然后利用模式匹配的方法从语料中识别出需要规范化的时间。3.基于语料模块化的时间规范化。把文本分割为关系紧密的小的模块,本文以一篇报道为处理模块,结合参考时间和模块内时间的属性,对识别到的时间求值,并转换为标准的时间格式。如“今天”转换为“xxxx/xx/xx”的形式,“三天”转换为“P3D”的形式等等。实验结果表明,本文使用的模块化的时间规范化方法是行之有效的,对新闻中时间信息的识别时间规范化的任务都达到了较好的效果。最后,本文以实验中的错误结果为例,详细分析了错误原因,并对一些问题提出了解决的思路。在今后的工作中,我们将就目前的研究方法做出一些改进,为推动时间信息处理的深入发展做出努力。