论文部分内容阅读
随着Internet的飞速发展,我们被包围在信息的汪洋大海之中。准确、有效地从信息海洋中提取有用的信息,正是信息提取任务要解决的问题。信息提取(Information Extraction,简称IE)是指从大量的文本中提取出特定的感兴趣的信息,并以结构化的形式表现出来。其基本目标是提高信息处理的速度和质量,把人们从大量、低效的文本阅读劳动中解放出来。信息提取与信息检索、文本摘要等同属于文本信息处理的范畴,是自然语言处理的一个研究领域。20世纪80年代末以来,信息提取一直是该领域的热点研究问题。美国、欧洲都制定了相应的文本处理计划,信息提取技术及评测是其中一项重要的研究内容。有关汉语的信息提取研究起步较晚,尚处在探索阶段。近年来,各种突发事件频繁地发生,突发事件的应对已经成为考验政府执政能力的一个重要方面。应对突发事件是一个系统工程,其中一个重要环节就是信息的收集、整理、加工和发布。及时、客观、准确地收集信息,快速、高效地提取有用信息,为分析形势、制定策略提供翔实可靠的参考数据,已经成为提高突发事件应对能力的一个重要方面,也是衡量突发事件应对能力的一个重要指标。本文在对突发事件新闻报道特点广泛分析的基础上,以同一突发事件的多个新闻报道(同事件多文本)为处理对象,进行突发事件的信息提取研究。主要内容包括:同事件多文本的数据分析,从中获取支持突发事件信息提取的有关特征:基于多特征融合的命名实体识别(Named entity recognition)方法研究与分析;特定信息的模式自动获取(automatic patternacquisition)方法研究;突发事件信息提取的模型研究,在此基础上获得突发事件的信息结构及特定信息。信息提取是一个有机融合多种资源和技术、面向实际应用的研究。我们的研究是在对文本进行分词和词性标注的基础上进行的,与英语信息提取相比,在文本处理深度、知识资源支持等方面都有较大的差距。因此,在研究过程中,对于每一项研究内容,我们都分析了现有资源和文本加工深度对信息提取任务的支持和制约,探索性地研究了具有一定鲁棒性的突发事件信息提取方法,以期为进一步的研究奠定基础、找到突破口。本文的研究特色主要包括:1. 提出了一个突发事件信息提取模型;在充分分析待处理数据特点的基础上,利用同事件多文本表现出来的相关信息的优势,根据突发事件的发展变化特点,探索了突发事件信息提取的一种模型。该模型在进行文本词语分析的基础上,通过句子聚类的方法,自动地获取事件的信息结构,在此基础上,通过特征的价值计算,获得特定信息的特征表达。该方法具有较强的鲁棒性,可用于任何突发事件的文本集合。2. 实现了一种具有较强适应性的无指导的模式获取方法;该方法利用相关句的性质,采用简单的词语串搭配信息,获得关于特定信息的模式结构,通过模式匹配进一步获得突发事件某个方面的具体信息。并通过模式的组合来完成动态信息的发现;3. 分析、论述了现有资源和基础加工对信息提取任务的支持和制约,探讨了在弱知识条件下信息提取技术的发展空间。本文研究的信息提取与传统的信息提取任务有些区别,它介于传统的信息提取与文本自动摘要之间,信息提取的结果也可以更直接地服务于文本摘要和问答系统。