论文部分内容阅读
在目前信息爆炸的时代,迫切需要一些更加自动化、智能化的工具帮助人们在海量文本数据中迅速找到真正需要的信息。信息抽取技术应运而生,成为自然语言处理研究领域的重要方面。
事件抽取是信息抽取中的一个重要的研究方向。事件抽取能从非结构化文本中抽取出事件信息并以结构化的形式呈现出来,是信息抽取研究中最具挑战性的任务之一。目前,国内外对该问题已经进行了一些研究或探讨,还没有一种成熟的事件抽取技术在实际中广泛应用。
本文以微观粒度的事件作为研究对象,描述了一种对中文文本的基于句法分析的事件信息抽取方法。主要的研究内容及创新点如下:
(1)根据汉语句法的特点,提出了一种新的基于句法分析的事件抽取方法及相关的一系列算法,首先对文本信息进行词法分析和句法分析得到句法分析树,然后根据归纳的规则对句法分析树进行处理,从中自动地抽取事件的元素信息,摆脱了对大量事件模板的依赖,在保证较高的抽取准确率的同时,又增强了通用性。
(2)在进行句法分析时,针对句法分析器对长句处理效率低下甚至无法进行处理的问题,提出了拆分句子的算法,即当长句子的字数超过设置的阈值时,以句子中最接近中点的标点符号为标识将长句一分为二,分别进行事件抽取,大大提高了对长句的事件抽取效率。
(3)对于句子中存在隐含主体的情况,根据句法分析树的结构特点提出了隐含主体抽取算法,采用向上回溯的方法查找与事件最相关的名词作为事件的主体,并对常见的两种情况分别讨论处理,以保证事件信息的完整性,提高了事件抽取的准确性。
(4)采用中科院的ICTCLAS分词工具和Stanford Parser句法分析器,根据提出的中文事件抽取方法及相关算法,设计实现了原型系统,可以对批量文本自动进行事件抽取,达到了较高的效率和准确性,验证了该事件抽取方法的可行性。
另外,为了实验方便有效地进行,我们对分词工具做了添加新词到字典库和批量文件分词等改进;在实验数据的统计阶段,由于从每个语句抽取的事件信息都需要人工判断以进行统计,我们做了一个小工具以减少统计出错的几率和提高工作效率。
实验结果表明了本文提出的方法是切实可行的,对于中文事件的抽取达到了较高的准确率和召回率,且该方法不需依赖于大量的模板,具有更高的通用性。