基于句法分析的中文事件抽取方法研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:Aegean1218
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在目前信息爆炸的时代,迫切需要一些更加自动化、智能化的工具帮助人们在海量文本数据中迅速找到真正需要的信息。信息抽取技术应运而生,成为自然语言处理研究领域的重要方面。 事件抽取是信息抽取中的一个重要的研究方向。事件抽取能从非结构化文本中抽取出事件信息并以结构化的形式呈现出来,是信息抽取研究中最具挑战性的任务之一。目前,国内外对该问题已经进行了一些研究或探讨,还没有一种成熟的事件抽取技术在实际中广泛应用。 本文以微观粒度的事件作为研究对象,描述了一种对中文文本的基于句法分析的事件信息抽取方法。主要的研究内容及创新点如下: (1)根据汉语句法的特点,提出了一种新的基于句法分析的事件抽取方法及相关的一系列算法,首先对文本信息进行词法分析和句法分析得到句法分析树,然后根据归纳的规则对句法分析树进行处理,从中自动地抽取事件的元素信息,摆脱了对大量事件模板的依赖,在保证较高的抽取准确率的同时,又增强了通用性。 (2)在进行句法分析时,针对句法分析器对长句处理效率低下甚至无法进行处理的问题,提出了拆分句子的算法,即当长句子的字数超过设置的阈值时,以句子中最接近中点的标点符号为标识将长句一分为二,分别进行事件抽取,大大提高了对长句的事件抽取效率。 (3)对于句子中存在隐含主体的情况,根据句法分析树的结构特点提出了隐含主体抽取算法,采用向上回溯的方法查找与事件最相关的名词作为事件的主体,并对常见的两种情况分别讨论处理,以保证事件信息的完整性,提高了事件抽取的准确性。 (4)采用中科院的ICTCLAS分词工具和Stanford Parser句法分析器,根据提出的中文事件抽取方法及相关算法,设计实现了原型系统,可以对批量文本自动进行事件抽取,达到了较高的效率和准确性,验证了该事件抽取方法的可行性。 另外,为了实验方便有效地进行,我们对分词工具做了添加新词到字典库和批量文件分词等改进;在实验数据的统计阶段,由于从每个语句抽取的事件信息都需要人工判断以进行统计,我们做了一个小工具以减少统计出错的几率和提高工作效率。 实验结果表明了本文提出的方法是切实可行的,对于中文事件的抽取达到了较高的准确率和召回率,且该方法不需依赖于大量的模板,具有更高的通用性。
其他文献
计算空间内任意一点到一个给定的任意多面体的最小有符号距离在许多工程领域都有应用。近年来,在计算机图形学、计算机仿真等相关领域,用距离场表示目标图形对象得到了广泛的
油茶在我国南方的森林生态系统中占有很重要的部分,除了给人们提供优质食用之外,还具有净化空气、美化环境、覆盖国土和保护水土资源等巨大的生态和社会效益。目前,我国油茶
随着计算机网络,传感器网络和移动设备的发展,普适计算得到了越来越多的关注和研究,基于普适计算的应用也越来越多。为了保证以服务为单位的应用程序执行的可靠性,需要考虑在
移动通信中的“用户感知”是指终端用户对移动网络提供的业务在主观感受上的综合满意程度。“用户感知”反映了终端用户对业务和网络的体验和感受,反映了当前业务和网络的质量
如今,由于对数据库的入侵行为频繁的发生,关于数据库的安全技术成为信息安全研究的焦点。入侵防御技术作为新的数据库安全技术被众多学者所研究,由于入侵防御技术作为一种主动的
协同制造已成为21世纪制造业发展的必然趋势。协同制造系统的实施提高了企业的柔性,为企业提供了敏捷而高效的组合能力,适应其个性化发展的需求,增强企业在市场上的竞争力,但在实施过程中,也遇到了一系列的问题,本文对其中的合作伙伴制造资源评价,协同生产计划分解与协同生产任务风险规避等内容进行了研究:(1)合作伙伴制造资源的评价方法。本文建立了合作伙伴制造资源的评价指标体系,并用遗传算法来确定各指标的权重,
聚合签名可以将n个不同的用户对n个不同的消息的签名合成一个签名,而验证者只需对合成的签名进行验证便可确信签名是否来自指定的n个用户,减小了签名验证的工作量和签名的存
如果想要综合利用同一个场景在不同成像器材、不同成像环境条件等不同因素的作用下所得到的多幅图像的信息,必须要先利用图像配准技术将这些图像进行配准对齐,让它们构成一个
随着微电子、计算机和传感器技术的高速发展,图像、声音等媒体信息的记录、存储、传输已进入数据化时代。图像、声音等媒体信息经过数据化处理之后形成的数据量非常庞大,这对
图像分割是由图像处理到图像分析的关键步骤,也是一种基本的计算机视觉技术。这是因为图像的分割、目标的分离、特征的提取和参数的测量将原始的图像转化为更抽象更紧凑的形