自动问答系统中基于短语句法树的语义角色标注技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:bear81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人们可共享和利用的资源越来越丰富。如何开发和利用这些丰富的信息资源,帮助用户从大量的信息中迅速有效地获取所需的有用信息是关键。自动问答是一种使得人们能够更加快速、准确地获取信息的新的手段。传统的自动问答系统单纯依靠提取关键字进行相关答案的查找,但是经常不能返回准确的答案,其基本原因在于没有对句子进行深入的理解,提取出关键字之间的语义关系。自动问答技术只有结合自然语言处理技术才能实现一定的突破。找到一种适合计算机理解的语言模型,并对自然语言文本进行分析,实现从文本到模型的转换,这是自动问答系统能够理解用户的提问,并从相关文档中准确地找出答案的基础性和关键性的工作。 本文对自然语言处理领域中的句子表示模型和分析技术进行研究,结合自动问答系统的分析要求,提出将句子分析成以谓词成分为中心,其它成分依赖于谓词成分,依赖关系体现为语义角色关系的语义角色依存树结构。这种句子表示模型描述了句子中概念之间的语义组合关系,能将表达方式多样的句子表层结构统一起来,揭示句子的深层语义结构,同时在形式上具有清晰、易于匹配推导等特点。 通过对大量中文语言现象的分析和各种不同的语义角色标注技术的比较,综合目标、资源和效果等因素考虑,我们确定采用分词—>短语结构句法分析—>语义角色标注的句子分析路径。在分析过程中,允许句法分析阶段输出多棵不确定的句法树作为语义角色标注阶段的输入。本文着重研究在短语结构句法树的基础上进行语义角色标注的实现方案,提出了一种通过构建语义角色识别知识库,基于知识规则来生成语义角色依存树的方法,并设计了融合评分机制的层次化标注流程,分析产生多层次的语义角色依存树,同时对产生的多个结果进行排序,得分高的准确性会更高。论文的主要工作概括为以下几点: (1)对当前国内外具有代表性的语义角色理论的设计思想进行分析,在此基础上,本文根据语义范畴相对性的观点,结合自动问答系统的具体应用,确定语义角色设计的具体操作原则,总结出一套满足自动问答分析要求,并具有层次清晰、可扩充性好等特点的层次树状结构的语义角色体系,并将语义角色落实到《知网》的事件义原分类体系中,在实际的考察和验证中不断地完善。本文还对语块结构内成分之间的组合关系进行了初步总结,并探讨了语义角色之间的相互联系和转化关系。 (2)对《知网》进行研究,并设计和构建了语义角色识别知识库。知识库是自然语言处理的重要资源,本文的语义角色标注工作是基于知识展开的,因此知识库是一个极其重要和关键的组成部分。本文将语义角色标注中所需的知识分成两个部分:通用的语义知识以及特定于语义角色标注具体任务的知识。通用的语义知识主要包括词语的概念描述和语义分类体系,这部分知识可以借助于现有的一些成熟的语义知识库;而特定于具体任务的知识主要是从短语句法树到语义角色依存树的转换知识,这部分知识需要我们自己设计。本文根据语义角色标注任务的知识需求,选取了《知网》作为系统的语义知识库。对《知网》的整体组织结构进行了研究,并着重深入研究其中的义原分类体系、概念标注和中文信息结构模式等同语义角色标注工作密切相关的部分,将这些知识应用到语义角色标注系统中来。在《知网》提供的语义知识的基础上,本文设计和构建了语义角色识别知识库。知识库分成三个部分:语块结构分析知识、谓词成分识别知识和语义角色分析知识,它们从复杂的语言现象中抽象出从短语句法树到语义角色依存树的映射规律,而且具有形式化好的特点,方便了计算机的使用及管理维护。 (3)依据汉语句子的多嵌套结构的特点,设计层次化的语义角色标注流程,基于知识库提供的知识,完成从短语句法树到语义角色依存树的结构转换。系统分成三个模块:语块绑定分析模块、谓词-参数结构分析模块和语义角色依存树评分模块。前两个模块完成结构的转换,可能产生多棵不确定的语义角色依存树。语义角色依存树评分模块通过总结启发式评分策略,对语义角色依存树从总体结构上进行评分,实现输出结果的排序。实验结果表明,它能分析出多层次的语义角色依存树。当前期的句法分析结果正确且唯一时,生成的语义角色依存树的正确率较高;对于多个句法分析结果,也能通过相应的语义搭配和启发式评分策略以最高得分分析得到正确的结果,整体效果比较令人满意。本文同时分析了实验结果中的错误原因,这对进一步的工作具有重要的指导意义。
其他文献
自动文本分类是一种重要的文本挖掘工作.特别是对中文文本的自动分类,目前还没有达到一个统一的标准.本文在已有的研究基础上,对中文文本的自动分类方法进行了进一步的探讨,
随着网络系统应用及复杂性的增加,Internet的正常运转时时受到安全威胁。在网络环境下,多样化的传播途径和复杂的应用环境使恶意代码的发生频率增高,而Internet蠕虫是目前危害最
《计算机文化基础》是高职院校的一门基础课程,传统的以理论笔试为主的考试,因其各种局限已跟不上时代的教育步伐,基于Web平台的计算机文化基础考试系统正是在这种形势下应运而
本文以高校多媒体教室的现代化教育手段的建设为背景,以更加有效地使用、管理和控制多媒体教室为目的,在总结了多媒体教室管理和控制的需求以及现阶段多媒体教室管理的方法的基
本文对管理信息系统和决策支持系统的理论进行了详细的归纳和总结,并以我国白酒行业的实际情况为出发点,结合评酒专家提出的样酒口感评价模型和评酒师监督算法,开发设计了《名优
本文结合目前主流的分布式技术规范J2EE,探讨了J2EE设计模式在开发分布式系统中的应用.本文介绍了分布式系统和J2EE平台的背景知识,回顾了设计模式的产生发展历程,探讨了设计
本文以经济系统中较为重要的消费函数模型为例,在对其传统的回归模型进行研究和总结的基础上,基于BP神经网络建立了一种具有在线学习功能、可直接用于预测的河南省城镇居民消
本文着重讨论和分析了通用数据库集群系统GDBCS,分以下几个部分: 1.在提出国家居民信息管理系统NRIMS的解决方案的基础上,简单介绍了集群技术和数据库技术,以及通过两者的结合
本文对基于ZigBee技术的智能家居控制网络进行了深入的分析,采用2.4G射频收发模块CC2420搭建了一个符合ZigBee标准的硬件网络平台,通过与ZigBee协议栈的接口建立了ZigBee网络、
城市路边广告牌可设立在城市道路两旁,这种方式的广告具有醒目、经济、适用并且可用来美化城市环境,因此近年来倍受很多广告公司和用户的青睐。 现有的灯箱广告牌,由于目